CN108399150B - 文本处理方法、装置、计算机设备和存储介质 - Google Patents
文本处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108399150B CN108399150B CN201810124552.1A CN201810124552A CN108399150B CN 108399150 B CN108399150 B CN 108399150B CN 201810124552 A CN201810124552 A CN 201810124552A CN 108399150 B CN108399150 B CN 108399150B
- Authority
- CN
- China
- Prior art keywords
- entry
- text
- processed
- target
- target entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
Abstract
本申请涉及一种文本处理方法、系统、计算机设备和存储介质。所述方法包括:获取待处理文本;将所述待处理文本输入预设的文本匹配模型,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置;根据所述待处理文本确定与所述目标词条对应的词条信息;根据所述词条信息和所述词条位置将所述待处理文本中的所述目标词条转换成超链接;当接收到终端发送的对所述超链接的查阅指令时,将所述词条信息发送至所述终端。采用本方法能够节约了浏览者查询目标词条的时间,因此提高了文本的信息提供效率。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
随着物质生活水平的提高,在人们对文化产品、文化服务表现出越来越高的追求的同时,也越来越愿意将经历与感想分享给大众。由此衍生出许多美食点评或旅游攻略的网站,用户可以在网站平台发表文本、图片等信息供人阅览。
然而,传统的信息共享网站平台上通常会充斥着大篇幅的文本,使得浏览者难以获取关键信息。且当浏览者遇到不熟悉的行业词条时,还需要再通过搜索引擎进行查询,浏览者需要耗费大量的时间进行阅读,文本阅读的便捷性不高,使得降低浏览者的浏览兴趣,从而导致文本的信息提供效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本的信息提供效率的文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:获取待处理文本;将所述待处理文本输入预设的文本匹配模型,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置;根据所述待处理文本确定与所述目标词条对应的词条信息;根据所述词条信息和所述词条位置将所述待处理文本中的所述目标词条转换成超链接;当接收到终端发送的对所述超链接的查阅指令时,将所述词条信息发送至所述终端。
在其中一个实施例中,所述将所述待处理文本输入预设的文本匹配模型,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置,包括:将所述待处理文本输入预设的文本匹配模型;所述文本匹配模型通过预设的词条树和执行函数构成;根据所述执行函数将所述待处理文本与所述预设的词条树进行匹配,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置。
在其中一个实施例中,所述根据所述待处理文本确定与所述目标词条对应的词条信息,包括:判断所述目标词条是否对应多个主题类别的词条信息;若是,则根据所述词条位置确定所述目标词条的主题类别;将属于所确定的主题类别的词条信息作为与所述目标词条对应的词条信息。
在其中一个实施例中,所述根据所述词条位置确定所述目标词条的主题类别,包括:根据所述词条位置,获取所述待处理文本中所述目标词条的前续语句和后续语句;提取所述前续语句和所述后续语句中的语句关键词;确定所述语句关键词所属的主题类别,并将所确定的主题类别作为所述目标词条的主题类别。
在其中一个实施例中,所述词条位置包括起始位置和结束位置;所述根据所述词条信息和所述词条位置将所述待处理文本中的所述目标词条转换成超链接,包括:根据所述词条信息在所述目标词条所对应的起始位置插入起始标签;在所述目标词条所对应的结束位置插入结束标签;根据所述起始标签和所述结束标签将所述目标词条转换成超链接;所述超链接用于连接所述词条信息。
在其中一个实施例中,所述将所述词条信息发送至所述终端,包括:将所述词条信息发送至所述终端;所述词条信息用于在所述终端生成相应的词条弹出框。
在其中一个实施例中,所述词条弹出框中包含资源控件;在所述将所述词条信息发送至所述终端之后,还包括:统计预设时长内终端发送的资源链接请求的请求数量;根据所述指令数量生成资源链接响应;所述资源链接响应用于指示所述终端根据所述指令数量改变所述资源控件的形状。
一种文本处理装置,所述装置包括:待处理文本获取模块,用于获取待处理文本;目标词条匹配模块,用于将所述待处理文本输入预设的文本匹配模型,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置;词条信息确定模块,用于根据所述待处理文本确定与所述目标词条对应的词条信息;超链接生成模块,用于根据所述词条信息和所述词条位置将所述待处理文本中的所述目标词条转换成超链接;词条信息发送模块,用于当接收到终端发送的对所述超链接的查阅指令时,将所述词条信息发送至所述终端。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述文本处理方法的步骤。
上述文本处理方法、装置、计算机设备和存储介质,在获取待处理文本之后,通过预设的文本匹配模型得到待处理文本中存在的目标词条及目标词条的词条位置。确定与目标词条对应的词条信息之后,可根据词条信息将目标词条转换为超链接,使得目标词条能够与词条信息具有连接关系。当接收到终端发送的对超链接的查阅指令时,将词条信息发送至终端,使得在浏览者阅读待处理文本时能够及时获得目标词条相应的词条信息,且通过根据待处理文本确定与目标词条对应的词条信息,提高了提供相应的词条信息的精准度,节约了浏览者查询目标词条的时间,因此提高了文本的信息提供效率。
附图说明
图1为一个实施例中文本处理方法的应用场景图;
图2为一个实施例中文本处理方法的流程示意图;
图3为一个实施例中多个目标词条构成的词条树示意图;
图4A为一个实施例中终端通过超链接显示词条信息的示意图;
图4B为另一个实施例中终端通过超链接显示词条信息的示意图;
图4C为又一个实施例中终端通过超链接显示词条信息的示意图;
图5为一个实施例中文本处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。比如说,终端102可将待处理文本发送至服务器104进行存储;服务器104可在接收到终端102发送的对超链接的查阅指令时,将词条信息发送至终端102等。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待处理文本。
待处理文本是指需要进行文本处理的文本。待处理文本可由中文字符、英文字母、标点符号及阿拉伯数字等其中一种或多种组成,但不限于此。待处理文本可为预存于数据库中的文本,也可为终端发送的文本,还可为通过文本采集脚本在预设网页上采集得到的文本。
步骤204,将待处理文本输入预设的文本匹配模型,得到匹配的目标词条及目标词条在待处理文本中的词条位置。
文本匹配模型是指用于检测文本中一个或多个目标词条的模型。目标词条是指待处理文本中需要进行匹配的词条。词条位置是指目标词条在待处理文本中的位置。比如说,针对待处理文本“今天深圳的天气晴朗”,预设的文本匹配模型输出的目标词条可为“深圳”,位置为“3~4”。
在一个实施例中,目标词条可为POI(Point of Interest,兴趣点,是地理信息系统中的一个术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院、超市等。)词条。可通过搜集各个领域的POI词条,包括简称、全称、别称等,还可对POI词条进行分类分库存储。比如说可搜集旅游行业的POI词条,可将上海的简称沪和别称申城都进行存储。根据所有POI词条构建词条树之后,可通过执行函数根据词条树检测出待处理文本中包含的POI词条,并确定POI词条的词条位置。
步骤206,根据待处理文本确定与目标词条对应的词条信息。
当检测到待处理文本中匹配的目标词条之后,可获取与该目标词条对应的词条信息。其中,词条信息包括但不限于用于解释词条的文本信息、图片信息、音频信息等其中一种或多种的组合,还可以是与目标词条相关的产品信息。可根据待处理文本的类型选取与目标词条对应的词条信息。其中,待处理文本的类型可根据待处理文本的标签或待处理文本中相同主题类别的目标词条的占比来确定。比如说,当待处理文本为旅游攻略时,目标词条可为景点名称,词条信息可为景点解释,还可为景点门票购买链接及旅游保险等相关的产品信息。
在一个实施例中,由于每个目标词条可对应多个主题类别的词条信息,比如“马元”既可代表人物主题类别的马元,也可代表交通主题类别的马来西亚元,因此在获取词条信息之前需要先确定目标词条的主题类别。步骤206可包括判断目标词条是否对应多个主题类别的词条信息;若是,则根据词条位置确定目标词条的主题类别;将属于所确定的主题类别的词条信息作为与目标词条对应的词条信息。
在一个实施例中,每个目标词条在同一主题类别下还可对应多种词条信息,则在确定待处理文本的主题类别之后,还可计算词条信息与待处理文本的匹配概率。比如说,将词条信息中的关键词与待处理文本中的关键词进行匹配,将匹配的关键词数量最多的词条信息作为与目标词条对应的词条信息。比如说,待处理文本中包含目标词条“人才公园”,但目标词条“人才公园”可对应多个城市的世纪公园的词条信息时,可将多个“人才公园”的词条信息与待处理文本进行匹配。当检测到待处理文本与深圳的“人才公园”所对应的词条信息中都包含多个“深圳”时,可将深圳的“人才公园”所对应的词条信息作为与目标词条对应的词条信息。
步骤208,根据词条信息和词条位置将待处理文本中的目标词条转换成超链接。
超链接是指目标词条与目标内容具有连接关系。其中,目标内容可以是另一个网页,也可以是相同网页上的不同位置,还可以是词条信息,比如图片、文本、电子邮件地址、文件等,但不限于此。超链接是一种对象,根据词条信息生成超链接之后,使得如果对该链接执行点击操作或鼠标悬停操作等,则相当于指示浏览器显示与该超链接具有连接关系的词条信息。根据词条信息将目标词条转换为超链接之后,该超链接可与词条信息具有连接关系。比如说,根据待处理文本生成网页之后,且待处理文本中的目标词条已转换为超链接,当检测到作用于该超链接的操作时,终端可通过JS脚本异步调用服务器数据库中相应的词条信息。
在一个实施例中,词条位置包括起始位置和结束位置,根据词条信息和词条位置将待处理文本中的目标词条转换成超链接包括根据词条信息在目标词条所对应的起始位置插入起始标签;在目标词条所对应的结束位置插入结束标签;根据起始标签和结束标签将目标词条转换成超链接;超链接用于连接词条信息。其中,起始位置是指目标词条在待处理文本中出现的第一个字符之前的位置,结束位置是指目标词条在待处理文本中出现的最后一个字符之后的位置。可通过超文本标记语言将目标词条转换为超链接,起始标签和结束标签包括但不限于锚标签、加粗标签、字体标签等。
举例来说,可在目标词条“东方文华酒店”的前后分别插入起始标签和结束标签,转换成<a href=“XXX”>东方文华酒店</a>。这样网页上就会以超链接的形式展示待处理文本中的目标词条“东方文华酒店”。“XXX”可为当终端检测到作用于“东方文华酒店”的点击操作或悬停操作时,所转换至的网页链接。该网页链接可通过与目标词条“东方文华酒店”对应的词条信息所生成。
步骤210,当接收到终端发送的对超链接的查阅指令时,将词条信息发送至终端。
查阅指令是指终端根据所检测到的作用于超链接的查阅操作所生成的指令。其中,查阅操作包括但不限于点击操作及悬停操作等。在接收到查阅指令之后,服务器可从数据库中获取与该超链接具有连接关系的词条信息,并将该词条信息发送至终端,使得终端能够显示词条信息。
在一个实施例中,由于相同的目标词条可对应多个词条信息,因此可针对每个词条信息预设词条标识,并根据词条标识将目标词条转换超链接。当接收到终端发送的对超链接的查阅指令时,可通过词条标识在数据库中查找相应的词条信息,并将词条信息发送至终端。
上述文本处理方法中,在获取待处理文本之后,通过预设的文本匹配模型得到待处理文本中存在的目标词条及目标词条的词条位置。确定与目标词条对应的词条信息之后,可根据词条信息将目标词条转换为超链接,使得目标词条能够与词条信息具有连接关系。当接收到终端发送的对超链接的查阅指令时,将词条信息发送至终端,使得在浏览者阅读待处理文本时能够及时获得目标词条相应的词条信息,且通过根据待处理文本确定与目标词条对应的词条信息,提高了提供相应的词条信息的精准度,节约了浏览者查询目标词条的时间,因此提高了文本的信息提供效率。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,可通过预设的词条树和执行函数构成文本匹配模型。比如说,预设的文本匹配模型可为AC(Aho-Corasick automaton,多模式匹配)自动机,通过AC算法将多个目标词条构建成有限状态自动机,实现一次扫描文本完成一个或多个目标词条的匹配。如图3所示,可根据多个目标词条,{东方文华酒店;东方明珠;东方绿洲},构造词条树,也可称为Trie树(字典树)。执行函数可包括转向函数(goto function)、失效函数(failurefunction)和输出函数(output function)。其中,转向函数指的是当输入待处理文本的下一个字符后,匹配成功时转到的下一个状态节点;失效函数指的是当输入待处理文本的下一个字符后,匹配失败时转到的下一个状态节点;输出函数指的是在某个状态节点匹配到某个目标词条后的输出。如图3所示的词条树中,每个数字都是一个状态节点,每输入待处理文本中的一个字符就会从当前状态节点转入下一个状态节点。比如待处理文本为“来到东方明珠酒店”,可通过转向函数将待处理文本依次匹配节点0、节点1、节点2、节点7、节点8,由于“珠”的下一个字符是“酒”,不存在匹配的节点,因此,可通过失效函数将节点8指向节点4,则能继续匹配节点5和节点6。由于节点6是叶子节点,说明词条匹配成功,则会通过输出函数输出匹配的目标词条“东方明珠酒店”。其中,叶子节点是指词条树中没有子节点的节点。
在一个实施例中,当检测到多种匹配可能性时,还可根据匹配的状态节点的位置,取最长的目标词条作为匹配的目标词条。比如说,当待处理文本输入图3所示词条树所对应的AC自动机时,匹配出两个结果:“东方文华酒店”,匹配词条位置是“0~6”;“东方文华”,匹配的词条位置是“0~4”。由于“0~6”长于“0~4”,因此可选取“东方文华酒店”作为匹配的目标词条。
在一个实施例中,根据词条位置确定目标词条的主题类别,包括:根据词条位置,获取待处理文本中目标词条的前续语句和后续语句;提取前续语句和后续语句中的语句关键词;确定语句关键词所属的主题类别,并将所确定的主题类别作为目标词条的主题类别。其中,前续语句是指目标词条在待处理文本中所处的词条位置前的语句;后续语句是指目标词条在待处理文本中所处的词条位置后的语句。前续语句和后续语句可以是以句号结尾的完整语句,也可以是以句号或分号等结尾的不完整语句。语句关键词是指前续语句及后续语句中的能够反映主题类别的关键词,可通过对前续语句和后续语句进行中文分词得到语句关键词。可针对提取语句关键词预设不同主题类别的关键词数据库,将前续语句和后续语句与关键词数据库中的关键词进行匹配,将匹配的关键词作为语句关键词。统计相同主题类别下匹配的语句关键词的匹配数量,可将最大匹配数量所对应的主题类别作为语句关键词所属的主题类别。
举例来说,待处理文本为“整点出发,行程20分钟,票价5马元,出租车需要30马元”,可提取出目标词条“马元”的前续语句“行程20分钟”和后续语句“出租车需要30马元”中的语句关键词“行程”和“出租车”。由于“行程”和“出租车”属于交通主题类别的关键词,因此可确定目标词条“马元”的主题类别也为交通主题类别。相应的,可获取“马元”对应的词条信息中,与交通主题类别对应的词条信息。
在一个实施例中,将词条信息发送至终端,包括:将词条信息发送至终端;词条信息用于在终端生成相应的词条弹出框。词条弹出框是指终端用于显示目标词条对应的词条信息的弹出框。词条弹出框可根据目标词条在浏览器窗口的位置自动判断弹出框显示位置。比如说,可直接在目标词条上方显示词条弹出框,也可以在窗口上方下方等侧边显示词弹出框。
图4A为终端通过超链接显示词条信息的示意图,包括目标词条402“马元”、词条弹出框404A和光标406。当检测到光标406作用于目标词条402的点击操作或悬停操作时,可生成查阅指令,并将查阅指令发送至服务器,服务器可根据查阅指令查找与目标词条402“马元”对应的词条信息。当检测到“马元”对应多种主题类型的词条信息时,可提取出目标词条“马元”的前续语句“行程20分钟”和后续语句“出租车需要30马元”中的语句关键词“行程”和“出租车”。由于“行程”和“出租车”属于交通主题类别的关键词,因此可确定目标词条“马元”的主题类别也为交通主题类别。相应的,可获取“马元”对应的词条信息中,与交通主题类别对应的词条信息。服务器将确定的词条信息发送至终端之后,终端可根据词条信息填充并生成词条弹出框404A,词条弹出框404A显示在目标词条上方。如图4B所示,终端也可根据词条信息填充并生成词条弹出框404B,词条弹出框404B显示在浏览器窗口上侧边栏,能够避免遮挡目标词条周围的文本。
在一个实施例中,还可针对同一目标词条对应的每个词条信息打上标签,可结合目标词条的前续语句和后续语句中的语句关键词,选取部分词条信息发送至终端。比如说,针对目标词条“东方明珠”,当待处理文本中的内容为“在东方明珠吃饭”时,可选取与“吃饭”对应的词条信息,比如打上了“餐饮”标签的词条信息,可为东方明珠附近餐厅的简介;当待处理文本中的内容为“游玩东方明珠”时,可选取与“游玩”对应的词条信息,比如打上了“娱乐”标签的词条信息,可为东方明珠附近的娱乐活动的简介及门票购买链接。
在一个实施例中,词条弹出框中包含资源控件;在将词条信息发送至终端之后,还包括:统计预设时长内终端发送的资源链接请求的请求数量;根据指令数量生成资源链接响应;资源链接响应用于指示终端根据指令数量改变资源控件的形状。
资源控件是指封装了全部或部分词条信息的控件。词条信息包括但不限于图片信息、文本信息、网页链接、音频信息等其中一种或多种的组合,相应地,资源控件可为用于转向其他网页链接的控件,也可为显示图片信息的控件,还可为用于播放音频信息的控件,但不限于此。终端显示包含资源控件的词条弹出框之后,还可接收作用于资源控件的点击操作。终端可根据作用于资源控件的点击操作生成资源链接请求,并将资源链接请求发送至服务器。服务器可统计预设时长内终端发送的资源链接请求的请求数量,并根据指令数量生成资源链接响应。其中资源链接响应中可包含资源控件的形状参数,资源链接响应可用于指示终端根据形状参数改变资源控件的形状。比如说,该形状参数可根据请求数量生成,当请求数量越大时,可生成更大的形状参数,因此可增大资源控件的尺寸。
在一个实施例中,还可对词条弹出框中包含的资源控件进行埋点处理,使得能够直接统计作用于资源控件点击操作的次数。
在一个实施例中,词条弹出框可包括多个区域,在每个区域可显示文本、图片、资源控件等其中至少一种。举例来说,如图4C所示,词条弹出框404C中包含三个区域,区域404C-a、区域404C-b和区域404C-c。其中,区域404C-a可用于显示目标词条“马元”的词条解释文本,区域404C-b可用于显示目标词条“马元”相关的产品信息,区域404C-c可用于显示目标词条“马元”的发音。在统计预设时长内终端发送分别与区域404C-b中产品信息对应的指令数量b,和与区域404C-c中“马元”的发音对应的指令数量c之后,可根据指令数量b和指令数量c改变区域404C-b和区域404C-c在整个词条弹出框的区域占比。比如说,当指令数量b远远大于指令数量c时,说明浏览者对区域404C-b中产品信息的兴趣远远大于对区域404C-c中“马元”的发音的兴趣,则可以增大区域404C-b在整个词条弹出框的区域占比,减小区域404C-c在整个词条弹出框的区域占比。
上述实施例中,通过与词条弹出框中资源控件对应的资源链接请求的请求数量,改变资源控件的形状,
在一个实施例中,如图5所示,提供了一种文本处理装置500,包括:待处理文本获取模块502,用于获取待处理文本;目标词条匹配模块504,用于将待处理文本输入预设的文本匹配模型,得到匹配的目标词条及目标词条在待处理文本中的词条位置;词条信息确定模块506,用于根据待处理文本确定与目标词条对应的词条信息;超链接生成模块508,用于根据词条信息和词条位置将待处理文本中的目标词条转换成超链接;词条信息发送模块510,用于当接收到终端发送的对超链接的查阅指令时,将词条信息发送至终端。
在一个实施例中,目标词条匹配模块504还用于将待处理文本输入预设的文本匹配模型;文本匹配模型通过预设的词条树和执行函数构成;根据执行函数将待处理文本与预设的词条树进行匹配,得到匹配的目标词条及目标词条在待处理文本中的词条位置。
在一个实施例中,词条信息确定模块506还用于判断目标词条是否对应多个主题类别的词条信息;若是,则根据词条位置确定目标词条的主题类别;将属于所确定的主题类别的词条信息作为与目标词条对应的词条信息。
在一个实施例中,词条信息确定模块506还用于根据词条位置,获取待处理文本中目标词条的前续语句和后续语句;提取前续语句和后续语句中的语句关键词;确定语句关键词所属的主题类别,并将所确定的主题类别作为目标词条的主题类别。
在一个实施例中,词条位置包括起始位置和结束位置;超链接生成模块508还用于根据词条信息在目标词条所对应的起始位置插入起始标签;在目标词条所对应的结束位置插入结束标签;根据起始标签和结束标签将目标词条转换成超链接;超链接用于连接词条信息。
在一个实施例中,词条信息发送模块510还用于将词条信息发送至终端;词条信息用于在终端生成相应的词条弹出框。
在一个实施例中,词条弹出框中包含资源控件;词条信息发送模块510还用于统计预设时长内终端发送的资源链接请求的请求数量;根据指令数量生成资源链接响应;资源链接响应用于指示终端根据指令数量改变资源控件的形状。
关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理文本、词条树等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。比如说,该计算机设备可接收终端发送的待处理文本,还可以将词条信息发送至终端。该计算机程序被处理器执行时以实现一种文本处理方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待处理文本;将待处理文本输入预设的文本匹配模型,得到匹配的目标词条及目标词条在待处理文本中的词条位置;根据待处理文本确定与目标词条对应的词条信息;根据词条信息和词条位置将待处理文本中的目标词条转换成超链接;当接收到终端发送的对超链接的查阅指令时,将词条信息发送至终端。
在一个实施例中,处理器执行计算机程序时,所实现的述将待处理文本输入预设的文本匹配模型,得到匹配的目标词条及目标词条在待处理文本中的词条位置的步骤,包括以下步骤:将待处理文本输入预设的文本匹配模型;文本匹配模型通过预设的词条树和执行函数构成;根据执行函数将待处理文本与预设的词条树进行匹配,得到匹配的目标词条及目标词条在待处理文本中的词条位置。
在一个实施例中,处理器执行计算机程序时,所实现的根据待处理文本确定与目标词条对应的词条信息的步骤,包括以下步骤:判断目标词条是否对应多个主题类别的词条信息;若是,则根据词条位置确定目标词条的主题类别;将属于所确定的主题类别的词条信息作为与目标词条对应的词条信息。
在一个实施例中,处理器执行计算机程序时,所实现的根据词条位置确定目标词条的主题类别的步骤,包括以下步骤:根据词条位置,获取待处理文本中目标词条的前续语句和后续语句;提取前续语句和后续语句中的语句关键词;确定语句关键词所属的主题类别,并将所确定的主题类别作为目标词条的主题类别。
在一个实施例中,词条位置包括起始位置和结束位置,处理器执行计算机程序时,所实现的根据词条信息和词条位置将待处理文本中的目标词条转换成超链接的步骤,包括以下步骤:根据词条信息在目标词条所对应的起始位置插入起始标签;在目标词条所对应的结束位置插入结束标签;根据起始标签和结束标签将目标词条转换成超链接;超链接用于连接词条信息。
在一个实施例中,处理器执行计算机程序时,所实现的将词条信息发送至终端的步骤,包括以下步骤:将词条信息发送至终端;词条信息用于在终端生成相应的词条弹出框。
在一个实施例中,词条弹出框中包含资源控件,处理器执行计算机程序时,在所实现的将词条信息发送至终端的步骤之后,还包括以下步骤:统计预设时长内终端发送的资源链接请求的请求数量;根据指令数量生成资源链接响应;资源链接响应用于指示终端根据指令数量改变资源控件的形状。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理文本;将待处理文本输入预设的文本匹配模型,得到匹配的目标词条及目标词条在待处理文本中的词条位置;根据待处理文本确定与目标词条对应的词条信息;根据词条信息和词条位置将待处理文本中的目标词条转换成超链接;当接收到终端发送的对超链接的查阅指令时,将词条信息发送至终端。
在一个实施例中,计算机程序被处理器执行时,所实现的述将待处理文本输入预设的文本匹配模型,得到匹配的目标词条及目标词条在待处理文本中的词条位置的步骤,包括以下步骤:将待处理文本输入预设的文本匹配模型;文本匹配模型通过预设的词条树和执行函数构成;根据执行函数将待处理文本与预设的词条树进行匹配,得到匹配的目标词条及目标词条在待处理文本中的词条位置。
在一个实施例中,计算机程序被处理器执行时,所实现的根据待处理文本确定与目标词条对应的词条信息的步骤,包括以下步骤:判断目标词条是否对应多个主题类别的词条信息;若是,则根据词条位置确定目标词条的主题类别;将属于所确定的主题类别的词条信息作为与目标词条对应的词条信息。
在一个实施例中,计算机程序被处理器执行时,所实现的根据词条位置确定目标词条的主题类别的步骤,包括以下步骤:根据词条位置,获取待处理文本中目标词条的前续语句和后续语句;提取前续语句和后续语句中的语句关键词;确定语句关键词所属的主题类别,并将所确定的主题类别作为目标词条的主题类别。
在一个实施例中,词条位置包括起始位置和结束位置,计算机程序被处理器执行时,所实现的根据词条信息和词条位置将待处理文本中的目标词条转换成超链接的步骤,包括以下步骤:根据词条信息在目标词条所对应的起始位置插入起始标签;在目标词条所对应的结束位置插入结束标签;根据起始标签和结束标签将目标词条转换成超链接;超链接用于连接词条信息。
在一个实施例中,计算机程序被处理器执行时,所实现的将词条信息发送至终端的步骤,包括以下步骤:将词条信息发送至终端;词条信息用于在终端生成相应的词条弹出框。
在一个实施例中,词条弹出框中包含资源控件,计算机程序被处理器执行时,在所实现的将词条信息发送至终端的步骤之后,还包括以下步骤:统计预设时长内终端发送的资源链接请求的请求数量;根据指令数量生成资源链接响应;资源链接响应用于指示终端根据指令数量改变资源控件的形状。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本处理方法,所述方法包括:
获取待处理文本;
将所述待处理文本输入预设的文本匹配模型,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置;
根据所述待处理文本确定与所述目标词条对应的词条信息;包括:在确定待处理文本的主题类别之后,计算词条信息与待处理文本的匹配概率;将词条信息中的关键词与待处理文本中的关键词进行匹配,将匹配的关键词数量最多的词条信息作为与目标词条对应的词条信息;
根据所述词条信息和所述词条位置将所述待处理文本中的所述目标词条转换成超链接;
当接收到终端发送的对所述超链接的查阅指令时,将所述词条信息发送至所述终端;
其中,通过预设的词条树和执行函数构成文本匹配模型;根据多个目标词条构造词条树,执行函数包括转向函数、失效函数和输出函数;转向函数指的是当输入待处理文本的下一个字符后,匹配成功时转到的下一个状态节点;失效函数指的是当输入待处理文本的下一个字符后,匹配失败时转到的下一个状态节点;输出函数指的是在某个状态节点匹配到某个目标词条后的输出;词条树中,每个数字都是一个状态节点,每输入待处理文本中的一个字符就会从当前状态节点转入下一个状态节点;当检测到多种匹配可能性时,根据匹配的状态节点的位置,取最长的目标词条作为匹配的目标词条。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入预设的文本匹配模型,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置,包括:
将所述待处理文本输入预设的文本匹配模型;所述文本匹配模型通过预设的词条树和执行函数构成;
根据所述执行函数将所述待处理文本与所述预设的词条树进行匹配,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待处理文本确定与所述目标词条对应的词条信息,包括:
判断所述目标词条是否对应多个主题类别的词条信息;
若是,则根据所述词条位置确定所述目标词条的主题类别;
将属于所确定的主题类别的词条信息作为与所述目标词条对应的词条信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述词条位置确定所述目标词条的主题类别,包括:
根据所述词条位置,获取所述待处理文本中所述目标词条的前续语句和后续语句;
提取所述前续语句和所述后续语句中的语句关键词;
确定所述语句关键词所属的主题类别,并将所确定的主题类别作为所述目标词条的主题类别。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述词条位置包括起始位置和结束位置;所述根据所述词条信息和所述词条位置将所述待处理文本中的所述目标词条转换成超链接,包括:
根据所述词条信息在所述目标词条所对应的起始位置插入起始标签;
在所述目标词条所对应的结束位置插入结束标签;
根据所述起始标签和所述结束标签将所述目标词条转换成超链接;所述超链接用于连接所述词条信息。
6.根据权利要求1至4中任意一项所述的方法,其特征在于,所述将所述词条信息发送至所述终端,包括:
将所述词条信息发送至所述终端;所述词条信息用于在所述终端生成相应的词条弹出框。
7.根据权利要求6所述的方法,其特征在于,所述词条弹出框中包含资源控件;在所述将所述词条信息发送至所述终端之后,还包括:
统计预设时长内终端发送的资源链接请求的请求数量;
根据所述请求数量生成资源链接响应;所述资源链接响应用于指示所述终端根据所述请求数量改变所述资源控件的形状。
8.一种文本处理装置,其特征在于,所述装置包括:
待处理文本获取模块,用于获取待处理文本;
目标词条匹配模块,用于将所述待处理文本输入预设的文本匹配模型,得到匹配的目标词条及所述目标词条在所述待处理文本中的词条位置;
词条信息确定模块,用于根据所述待处理文本确定与所述目标词条对应的词条信息;包括:在确定待处理文本的主题类别之后,计算词条信息与待处理文本的匹配概率;将词条信息中的关键词与待处理文本中的关键词进行匹配,将匹配的关键词数量最多的词条信息作为与目标词条对应的词条信息;
超链接生成模块,用于根据所述词条信息和所述词条位置将所述待处理文本中的所述目标词条转换成超链接;
词条信息发送模块,用于当接收到终端发送的对所述超链接的查阅指令时,将所述词条信息发送至所述终端;
其中,通过预设的词条树和执行函数构成文本匹配模型;根据多个目标词条构造词条树,执行函数包括转向函数、失效函数和输出函数;转向函数指的是当输入待处理文本的下一个字符后,匹配成功时转到的下一个状态节点;失效函数指的是当输入待处理文本的下一个字符后,匹配失败时转到的下一个状态节点;输出函数指的是在某个状态节点匹配到某个目标词条后的输出;词条树中,每个数字都是一个状态节点,每输入待处理文本中的一个字符就会从当前状态节点转入下一个状态节点;当检测到多种匹配可能性时,根据匹配的状态节点的位置,取最长的目标词条作为匹配的目标词条。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810124552.1A CN108399150B (zh) | 2018-02-07 | 2018-02-07 | 文本处理方法、装置、计算机设备和存储介质 |
PCT/CN2018/099965 WO2019153685A1 (zh) | 2018-02-07 | 2018-08-10 | 文本处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810124552.1A CN108399150B (zh) | 2018-02-07 | 2018-02-07 | 文本处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108399150A CN108399150A (zh) | 2018-08-14 |
CN108399150B true CN108399150B (zh) | 2020-05-22 |
Family
ID=63095401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810124552.1A Active CN108399150B (zh) | 2018-02-07 | 2018-02-07 | 文本处理方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108399150B (zh) |
WO (1) | WO2019153685A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657094A (zh) * | 2018-11-27 | 2019-04-19 | 平安科技(深圳)有限公司 | 音频处理方法及终端设备 |
WO2020133186A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市世强元件网络有限公司 | 一种文档信息提取方法、存储介质及终端 |
CN110532440A (zh) * | 2019-08-21 | 2019-12-03 | 深圳追一科技有限公司 | 信息处理方法、装置、设备和存储介质 |
CN110515530B (zh) * | 2019-08-28 | 2021-04-20 | 北京思维造物信息科技股份有限公司 | 一种文字操作的处理方法、装置、设备和存储介质 |
CN111128254B (zh) * | 2019-11-14 | 2021-09-03 | 网易(杭州)网络有限公司 | 音频播放方法、电子设备及存储介质 |
CN113051925A (zh) * | 2019-12-26 | 2021-06-29 | 中国移动通信集团有限公司 | 时间识别方法、装置、设备及计算机存储介质 |
CN111597324B (zh) * | 2020-05-20 | 2023-10-03 | 北京搜狗科技发展有限公司 | 一种文本查询方法及装置 |
CN112257388A (zh) * | 2020-10-19 | 2021-01-22 | 深圳市大成天下信息技术有限公司 | 一种内容展示方法、移动终端及系统 |
CN112307175B (zh) * | 2020-12-02 | 2021-11-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777054B (zh) * | 2009-01-14 | 2016-06-15 | 北京搜狗科技发展有限公司 | 一种展现词条属性信息的方法及装置 |
CN103853544A (zh) * | 2012-12-07 | 2014-06-11 | 华为技术有限公司 | 生成超链接的方法、装置和终端 |
CN105893422A (zh) * | 2015-12-03 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 在视频播放页面中创建超链接的方法、系统、以及服务器 |
CN107391667B (zh) * | 2017-07-20 | 2020-02-21 | 维沃移动通信有限公司 | 一种词条处理方法及移动终端 |
CN107273549A (zh) * | 2017-07-24 | 2017-10-20 | 山东中创软件工程股份有限公司 | 一种词条转化方法及装置 |
-
2018
- 2018-02-07 CN CN201810124552.1A patent/CN108399150B/zh active Active
- 2018-08-10 WO PCT/CN2018/099965 patent/WO2019153685A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN108399150A (zh) | 2018-08-14 |
WO2019153685A1 (zh) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399150B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
US11294968B2 (en) | Combining website characteristics in an automatically generated website | |
US10043514B2 (en) | Intelligent contextually aware digital assistants | |
US11669579B2 (en) | Method and apparatus for providing search results | |
WO2018133452A1 (zh) | 一种网页渲染方法及相关设备 | |
CN109190049B (zh) | 关键词推荐方法、系统、电子设备和计算机可读介质 | |
CN102460432B (zh) | 选择性内容提取 | |
US8874590B2 (en) | Apparatus and method for supporting keyword input | |
CN101826096B (zh) | 基于鼠标指点的信息显示方法、装置系统 | |
US20150227276A1 (en) | Method and system for providing an interactive user guide on a webpage | |
CN114595686B (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
US9262550B2 (en) | Processing semi-structured data | |
US20170109442A1 (en) | Customizing a website string content specific to an industry | |
CN106294885A (zh) | 一种面向异构网页的数据收集与标注方法 | |
US20120120436A1 (en) | Remote printing | |
US20170235835A1 (en) | Information identification and extraction | |
CN105808623B (zh) | 一种基于搜索的页面访问事件关联方法和装置 | |
JP6684894B2 (ja) | 情報をプッシュ配信する方法及び装置 | |
EP3731108A1 (en) | Search system, search method, and program | |
JP2009151734A (ja) | 参考キーワードを提示する機能を備えた商品検索装置および商品検索方法 | |
CN115080154A (zh) | 页面显示方法、装置、存储介质及电子设备 | |
US10789245B2 (en) | Semiconductor parts search method using last alphabet deletion algorithm | |
CN111737288A (zh) | 搜索控制方法、装置、终端设备、服务器及存储介质 | |
RU2589856C2 (ru) | Способ обработки целевого сообщения, способ обработки нового целевого сообщения и сервер (варианты) | |
CN110515618B (zh) | 页面信息录入优化方法、设备、存储介质及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |