CN110929507B - 一种文本信息处理的方法、装置及存储介质 - Google Patents
一种文本信息处理的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110929507B CN110929507B CN201811010090.7A CN201811010090A CN110929507B CN 110929507 B CN110929507 B CN 110929507B CN 201811010090 A CN201811010090 A CN 201811010090A CN 110929507 B CN110929507 B CN 110929507B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- interpretation
- sense
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 43
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 241000220225 Malus Species 0.000 description 33
- 235000011430 Malus pumila Nutrition 0.000 description 22
- 235000015103 Malus silvestris Nutrition 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 235000013399 edible fruits Nutrition 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 235000021016 apples Nutrition 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 241000220222 Rosaceae Species 0.000 description 5
- 235000004789 Rosa xanthina Nutrition 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 235000015097 nutrients Nutrition 0.000 description 2
- 235000016709 nutrition Nutrition 0.000 description 2
- 230000035764 nutrition Effects 0.000 description 2
- 235000019605 sweet taste sensations Nutrition 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000013343 vitamin Nutrition 0.000 description 2
- 229940088594 vitamin Drugs 0.000 description 2
- 229930003231 vitamin Natural products 0.000 description 2
- 239000011782 vitamin Substances 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 241000219094 Vitaceae Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 235000021021 grapes Nutrition 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本信息处理的方法,所述方法包括:获取目标文本信息对应的至少两个义项;其中,至少两个义项中包含对目标文本信息的不同解释文本;基于目标文本信息的上下文文本和至少两个义项的解释文本,确定上下文文本与每一个义项之间的相关特征参数;根据上下文文本与每一个义项之间的相关特征参数,选取目标文本信息所对应的目标义项。本发明实施例还公开了一种文本信息处理装置及存储介质。
Description
技术领域
本发明涉及自然语言处理技术,尤其涉及一种文本信息处理的方法、装置及存储介质。
背景技术
词义消歧(Word Sense Disambiguation,WSD)是自然语言处理领域的一个关键问题,对于机器翻译、信息检索、文本分类等众多研究领域都有重要的推动作用。词义消歧通过对文本中的每个多义词进行词义的明确,让计算机理解多义词在特定的上下文环境中具体代表的语义。
文本信息处理需要解决以下三个关键问题:
(1)如何判断一个词是不是多义词;
(2)对每个多义词,如何确定其义项数量并进行有效的区分;
(3)对出现在具体语境中的每个多义词如何确定其真正表达的词义。
现有的词义消歧方法主要分为三类,有监督的词义消歧,无监督的词义消歧,基于语义词典的词义消歧方法。然而,有监督的词义消歧方法需要人工词义标注的语料库来训练分类器模型,需要耗费大量人力做词语的标注工作。无监督的词义消歧方法,需要对每个词语做大量的聚类处理,计算量非常大,而且词义类别数量的确定存在着一定的误差,词义消歧的精度较低。基于语义词典的词义消歧方法受限于词典中的词语数量,只能对文本中包含在语义词典中的词语进行词义的标注。语义词典一经建立,不会频繁的更新,语义词典在扩展性和动态更新方面的能力远不能满足当前词义消歧的需求,例如在机器翻译、语音识别等领域,要求词语的词义分类信息始终处于比较新的状态,才能产生更智能的应用。
发明内容
为解决上述技术问题,本发明实施例期望提供一种文本信息处理的方法、装置及存储介质,能够快速确定目标文本信息的所表达的真实含义。
本发明的技术方案是这样实现的,本发明实施例提供了一种文本信息处理的方法,包括:
获取目标文本信息对应的至少两个义项;其中,所述至少两个义项中包含对所述目标文本信息的不同解释文本;
基于所述目标文本信息的上下文文本和所述至少两个义项的解释文本,确定所述上下文文本与每一个义项之间的相关特征参数;
根据所述上下文文本与每一个义项之间的相关特征参数,选取所述目标文本信息所对应的目标义项。
上述方案中,所述基于所述目标文本信息的上下文文本和所述至少两个义项的解释文本,确定所述上下文文本与每一个义项之间的相关特征参数;包括:对所述目标文本信息的上下文文本进行分词处理,得到第一词语集合;基于所述第一词语集合和所述至少两个义项的解释文本,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数;将所述第一词语集合与每一个义项的解释文本之间的相关特征参数,作为所述上下文文本与每一个义项之间的相关特征参数。
上述方案中,所述基于所述第一词语集合和所述至少两个义项的解释文本,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数,包括:计算所述第一词语集合中每一个词语的权重值;计算所述第一词语集合中每一个词语在第一解释文本中的逆文本频率指数TF-IDF;其中,所述第一解释文本为所述至少两个义项的解释文本中任一个解释文本;基于所述第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数。
上述方案中,所述基于所述第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数,包括:基于所述第一词语集合中每一个词语的权重值和每一个词语在所述第一解释文本中的TF-IDF,计算每一个词语与所述第一解释文本之间的相关特征参数;基于每一个词语与所述第一解释文本之间的相关特征参数,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数。
上述方案中,所述获取目标文本信息对应的至少两个义项,包括:从网络侧在线获取目标文本信息对应的至少两个义项。
本发明实施例中还提供了一种文本信息处理装置,所述装置包括:处理器和存储器;其中,
所述处理器用于执行存储器中存储的文本信息处理程序,以实现以下步骤:
获取目标文本信息对应的至少两个义项;其中,所述至少两个义项中包含对所述目标文本信息的不同解释文本;
基于所述目标文本信息的上下文文本和所述至少两个义项的解释文本,确定所述上下文文本与每一个义项之间的相关特征参数;
根据所述上下文文本与每一个义项之间的相关特征参数,选取所述目标文本信息所对应的目标义项。
上述方案中,所述处理器具体用于执行存储器中存储的文本信息处理程序,以实现以下步骤:对所述目标文本信息的上下文文本进行分词处理,得到第一词语集合;基于所述第一词语集合和所述至少两个义项的解释文本,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数;将所述第一词语集合与每一个义项的解释文本之间的相关特征参数,作为所述上下文文本与每一个义项之间的相关特征参数。
上述方案中,所述处理器具体用于执行存储器中存储的文本信息处理程序,以实现以下步骤:计算所述第一词语集合中每一个词语的权重值;计算所述第一词语集合中每一个词语在第一解释文本中的逆文本频率指数TF-IDF;其中,所述第一解释文本为所述至少两个义项的解释文本中任一个解释文本;基于所述第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数。
上述方案中,所述处理器具体用于执行存储器中存储的文本信息处理程序,以实现以下步骤:基于所述第一词语集合中每一个词语的权重值和每一个词语在所述第一解释文本中的TF-IDF,计算每一个词语与所述第一解释文本之间的相关特征参数;基于每一个词语与所述第一解释文本之间的相关特征参数,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数。
上述方案中,所述处理器具体用于执行存储器中存储的文本信息处理程序,以实现以下步骤:从网络侧在线获取目标文本信息对应的至少两个义项。
本发明实施例中还提供了一种文本信息处理装置,所述装置包括:
获取单元,用于获取目标文本信息对应的至少两个义项;其中,所述至少两个义项中包含对所述目标文本信息的不同解释文本;
处理单元,用于基于所述目标文本信息的上下文文本和所述至少两个义项的解释文本,确定所述上下文文本与每一个义项之间的相关特征参数;
选取单元,根据所述上下文文本与每一个义项之间的相关特征参数,选取所述目标文本信息所对应的目标义项。
本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述方法的步骤。
本发明实施例中提供的上述技术方案,利用目标文本信息的上下文文本与不同义项之间的相关特征参数,来衡量上下文文本与不同义项的解释文本之间的相似度,确定具有最大相似度的义项所表达的含义即为目标文本信息在文本中的真实含义,无需事先训练语料,无需人为参与,提高了目标文本信息辨识速度和效率。
附图说明
图1为本发明实施例中文本信息处理的方法的第一流程示意图;
图2为本发明实施例中文本信息处理的方法的第二流程示意图;
图3为本发明实施例中相关特征参数的计算流程示意图;
图4为本发明实施例中文本信息处理装置的第一组成结构示意图;
图5为本发明实施例中文本信息处理装置的第二组成结构示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
实施例一
如图1所示,文本信息处理的方法包括:
步骤101:获取目标文本信息对应的至少两个义项;其中,至少两个义项中包含对目标文本信息的不同解释文本;
步骤102:基于目标文本信息的上下文文本和至少两个义项的解释文本,确定上下文文本与每一个义项之间的相关特征参数;
步骤103:根据上下文文本与每一个义项之间的相关特征参数,选取目标文本信息所对应的目标义项。
这里,步骤101至步骤103的执行主体可以为文本信息处理装置的处理器。
实际应用中,获取义项的方法为:从网络侧在线获取目标文本信息对应的至少两个义项。这里,目标信息文本可以为任何一种文字语言中的字、词、成语、短语等,由于文字在使用过程中存在很多“一词多义”的歧义词,因此,需要识别这些歧义词在文本中所表达的真实含义。至少两个义项可以包括在网络侧检索到的与目标文本信息对应的所有义项,每一个义项中包含了解释文本,用于解释目标文本信息所表达的不同含义。采用在线获取义项的方法词源丰富,能够覆盖绝大部分文本信息处理的需求,而且能够不断地动态更新;无需事先训练语料,无需人为参与,提高了目标文本信息辨识速度和效率。
示例性的,联网后从百度百科、维基百科等网站中检索目标文本信息对应的所有义项。如:从百度百科中检索中文词语“苹果”,共有得到12个义项,每一个义项中包含了具体的解释文本。
例如,“苹果”的义项中所表达的含义有:科技公司、水果和电影名称等。“仪表”的义项中所表达的含义有:人的外表;测定温度、气压等的仪器,在汉英机器翻译中,“仪表”可译成appearance或meter。另外,在每一个义项中还包含了对这些歧义词的具体解释文本。
在一些实施例中,获取义项的方法为:从离线数据库中获取目标文本信息的至少两个。这里,离线数据库中预先存储了词典数据,词典中收录了不同文本信息所对应的至少一个义项。本发明实施例中,虽然离线获取义项的方法也具有较高的处理速度,但离线数据库中保存的词典数据有限,仍需要定时对离线数据库进行更新,才能更好的保证文本信息处理的准确性和快速性。
实际应用中,步骤102具体可以包括:目标文本信息所在文本中以目标文本信息为中心,截取紧邻目标文本信息的前N个字符,截取紧邻目标文本信息的后M个字符;其中,N和M均取大于1的整数;前N个字符、目标文本信息和后M个字符组成目标文本信息的上下文文本。
实际应用中,基于目标文本信息的上下文文本和至少两个义项的解释文本,确定上下文文本与每一个义项之间的相关特征参数,包括:对目标文本信息的上下文文本进行分词处理,得到第一词语集合;基于第一词语集合和至少两个义项的解释文本,计算第一词语集合与每一个义项的解释文本之间的相关特征参数;将第一词语集合与每一个义项的解释文本之间的相关特征参数,作为上下文文本与每一个义项之间的相关特征参数。
这里,第一词语集合中包含上下文文本中所有的有效词语,分词处理除了用于将文本分割成词语之外还用于剔除文本中的停用词以及标点符号,停用词是对上下文文本意思没有多大贡献,或起到连接作用的一些字词,如:的、了、呢等。
示例性的,目标文本信息c的上下文文本对应的第一词语集合C={c1,c2,...,cn},目标文本信息c为第一词语集合中任意一个词语。在百度百科中目标文本信息c对应的义项数量为m,所有义项的解释文本集合为D={d1,d2,...,dm},对于D中任意一个解释文本dk,k=1,2,...,m。
进一步地,计算第一词语集合中每一个词语的权重值;
计算第一词语集合中每一个词语在第一解释文本中的TF-IDF;其中,第一解释文本为至少两个义项的解释文本中任一个解释文本;基于第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算第一词语集合与每一个义项的解释文本之间的相关特征参数。
示例性的,先对上下文文本进行分词处理,去掉停用词,得到上下文文本对应的第一词语集合C={c1,c2,...,cn},其中,每一个词语的权重值计算公式为:
其中,w(ci)为第一词语集合中第i个词语ci的权重值,count(ci)为第i个词语在上下文文本中出现的次数,为上下文文本中第一词语集合中的所有词语出现的总次数。
计算包含第一词语集合中第i个词语ci(i=1,2,...,n)的义项数量vi,以及ci在dk中的频率ni,计算第i个词语ci在每一个义项的解释文本中的TF-IDF,计算公式如下:
其中,TFIDF(ci)为第i个词语ci在解释文本中的TF-IDF,Ndk为解释文本dk所包含的词语总数。
也就是说,在计算TF-IDF之前需要对解释文本dk进行分词处理,得到第二词语集合,第二词语集合中包含解释文本dk中所有的词语,根据第二词语集合确定解释文本dk中的词语总数Ndk。
进一步地,基于第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算每一个词语与第一解释文本之间的相关特征参数;基于每一个词语与第一解释文本之间的相关特征参数,计算第一词语集合与每一个义项的解释文本之间的相关特征参数。
示例性的,计算第i个词语ci与解释文本dk之间的相关特征参数S(ci),计算公式如下:
S(ci)=w(ci)×TFIDF(ci) (3)
计算目标文本信息c的上下文文本与解释文本dk之间的相关特征参数Score(c,dk),计算公式如下:
这里,相关特征参数Score(c,dk)用于衡量目标文本信息c的上下文文本与解释文本dk的文本相似度。根据计算得到的目标文本信息c的上下文文本与每一个义项中解释文本之间的相关特征参数,确定相关特征参数最大值的义项,该义项中的解释文本与目标文本信息c的上下文文本具有最大文本相似度,该义项所对应的含义即为目标文本信息所在文本中的含义。
采用上述技术方案,利用目标文本信息的上下文文本与不同义项之间的相关特征参数,来衡量上下文文本与不同义项的解释文本之间的相似度,确定具有最大相似度的义项所表达的含义即为目标文本信息在文本中的真实含义,无需事先训练语料,无需人为参与,提高了目标文本信息辨识速度和效率。
实施例二
为了能更加体现本发明的目的,在本发明实施例一的基础上,进行进一步的举例说明,如图2所示,文本信息处理方法具体包括:
步骤201:从网络侧在线获取目标文本信息对应的至少两个义项。
这里,目标文本信息以歧义词为例进行举例说明,歧义词是指具有至少两个不同含义的词语。在线获取义项的方法包括:首先确定文本中一个歧义词,先获取歧义词对应的所有义项。例如,可通过百度百科API或者通过网络链接抓取网页数据,网络链接为:https://baike.baidu.com/item/待识别词?force=1,获取当前词语所有义项信息。以“苹果”为例,通过解析https://baike.baidu.com/item/苹果?force=1,得到苹果义项信息如表1所示,共有12个义项。其中data-lemmaid是“苹果”不同含义的标识编号。
表1词语“苹果”在百度百科中的所有义项
编号 | data-lemmaid | 解释文本 |
1 | 5670 | 蔷薇科苹果属果实 |
2 | 6011208 | 韩国2008年康理贯执导电影 |
3 | 6011224 | 苹果产品公司 |
4 | 9976487 | 动漫《男子高中生的日常》中角色 |
5 | 19927344 | 谢和弦、E-SO演唱歌曲 |
6 | 14822460 | 蔷薇科苹果属果树 |
7 | 12641327 | 安与骑兵演唱歌曲 |
8 | 6011191 | 伊朗1998年莎米拉·玛克玛尔巴夫执导电影 |
9 | 20587748 | Minecraft中的食物类物品 |
10 | 17609283 | 邓丽欣演唱歌曲 |
11 | 6011176 | 2007年李玉执导电影 |
12 | 10079481 | 网游《天堂梦》中人物 |
根据词语和每个义项的data-lemmaid,可以获取词语各义项的解释文本,链接地址格式为:https://baike.baidu.com/item/待识别词/data-lemmaid。以“苹果”的第一个义项为例,通过解析https://baike.baidu.com/item/苹果/5670,可以得到苹果(蔷薇科苹果属果实)更具体解释文本为:
苹果(学名:Malus pumila)是水果的一种,是蔷薇科苹果亚科苹果属植物,其树为落叶乔木。苹果的果实富含矿物质和维生素,是人们经常食用的水果之一。苹果是一种低热量食物,每100克只产生60千卡热量。苹果中营养成分可溶性大,易被人体吸收,故有“活水”之称。其有利于溶解硫元素,使皮肤润滑柔嫩。据说“每天一苹果,医生远离我”。根据联合国粮农组织统计,2013年全世界的苹果产量为8082万吨,超过葡萄的7718万吨,排世界第二位(第一位是香蕉:1.067亿吨)。毫无疑问,苹果是温带水果之王。苹果营养丰富,味道甜美。苹果营养丰富,味道甜美。
这里,基于百度百科的在线文本信息处理方案,利用了百度百科的义项分类信息和各义项中的解释文本信息,包含了丰富最新的词汇量及其义项的解释文本,能够随时不断地扩展更新,具有更好的文本信息处理精度,能够有效支持机器翻译、智能客服、智能语音等需要准确识别不同语境下词语含义的智能应用。且本方案不需要人工手动标识、也不需要离线下载语料库。此外本方案对于词语含义的标识非常直观,不同于以往词语和序号组合、以及词语和词典编码组合等新式,本方案直接用词语在百度百科中不同义项的含义标识来标识,能够进一步获取更多的解释文本。
本方法基本思想是:上下文文本在义项的解释文本中的相关特性参数值越大,说明上下文文本与解释文本中蕴含的语义越接近,因此相似程度越大。上下文文本在各义项的相关特征参数就可作为目标文本信息的上下文文本与目标文本信息每个义项的解释文本之间文本相似度的度量标准。
步骤202:获取目标文本信息所在文本的上下文文本。
本发明实施例提供的技术方案中,文本信息处理过程需要计算目标文本信息的上下文信息与不同词语义项的解释文本之间的文本相似度。词语的上下文文本以目标文本信息为中心的左右固定范围窗口的词语集合。上下文窗口的选取通常不能太大,否则会引入大量的噪声数据;同样也不能太小,造成上下文信息的不足,本方案设置的上下文窗口大小可以取20,即待识别词左右各10个词组成上下文信息。但是上下文文本信息和百度百科中的词语义项的解释文本信息相比,词语数量要少很多;而且各义项的解释文本大小也各不相同。
具体的,目标文本信息所在文本中以目标文本信息为中心,截取紧邻目标文本信息的前N个字符,截取紧邻目标文本信息的后M个字符;其中,N和M均取大于1的整数;前N个字符、目标文本信息和后M个字符组成目标文本信息的上下文文本。
步骤203:基于目标文本信息的上下文文本和至少两个义项的解释文本,确定上下文文本与每一个义项之间的相关特征参数。
这里,计算上下文文本与每一个义项之间的相关特征参数的方法流程图如图3所示。
示例性的,目标文本信息c的上下文文本对应的第一词语集合C={c1,c2,...,cn},目标文本信息c为第一词语集合中任意一个词语。在百度百科中目标文本信息c对应的义项数量为m,所有义项的解释文本集合为D={d1,d2,...,dm},对于D中任意一个解释文本dk,k=1,2,...,m,dk与目标文本信息c的上下文之间的文本相似度计算过程如下:
步骤301:对上下文文本进行分词处理,计算上下文文本中每一个词语的权重值。
具体的,对上下文文本进行分词处理,去掉停用词,得到上下文文本对应的第一词语集合C={c1,c2,...,cn},其中,每一个词语的权重值计算公式为:
其中,w(ci)第i个词语ci的权重值,count(ci)为第一词语集合中第i个词语在上下文文本中出现的次数,为上下文文本中第一词语集合中所有词语出现的总次数。
步骤302:计算包含每一个词语的义项数,每一个词语在解释文本中出现的频率。
具体的,计算包含第一词语集合中词语ci(i=1,2,...,n)的义项数量vi,以及ci在dk中的频率ni。
步骤303:计算每一个词语在解释文本中的TF-IDF值。
具体的,计算词语ci在每一个义项的解释文本中的TF-IDF值,计算公式如下:
其中,TFIDF(ci)为词语ci在解释文本中的TF-IDF值,Ndk为解释文本dk所包含的词语总数。
步骤304:计算每一个词语与解释文本之间的相关特征参数。
具体的,计算词语ci与解释文本dk之间的相关特征参数S(ci),计算公式如下:
S(ci)=w(ci)×TFIDF(ci) (3)
步骤305:计算目标文本信息的上下文文本与解释文本之间的相关特征参数。
具体的,将每一个词语与解释文本dk之间的相关特征参数S(ci)进行累加之后,得到目标文本信息c的上下文文本与解释文本dk之间的相关特征参数Score(c,dk),计算公式如下:
这里,直接将相关特征参数Score(c,dk)作为目标文本信息c的上下文文本与解释文本dk之间的文本相似度。基于计算得到的目标文本信息c的上下文文本与每一个义项中解释文本之间的相关特征参数,确定相关特征参数最大值的义项,该义项中的解释文本与目标文本信息c的上下文文本具有最大文本相似度,该义项中所表达的含义即为目标文本信息所在文本中的含义。
步骤204:根据得到的上下文文本与每一个义项之间的相关特征参数,选取相关特性参数最大值对应的义项为目标义项。
本发明实施例中,将上下文文本与每一个义项之间的相关特征参数作为上下文文本与每一个义项之间的文本相似度,用于评价上下文文本与每一个义项中解释文本所表达的含义的接近程度,相关特征参数最大值对应的义项中解释文本所表达的含义即为目标文本真实的含义。
步骤205:确定目标义项中解释文本所表达的含义为目标文本信息的真实含义。
例如,“苹果”在“烟台苹果的营养很丰富,含有多种维生素和酸类物质”中被标识为苹果(蔷薇科苹果属果实);“苹果”在“苹果公司创立之初,主要开发和销售的个人电脑”中被标识为苹果(苹果产品公司)。
经过上述的文本信息处理过程,可以准确识别出每一种词语在不同上下文文本中所表达的具体词义。
本发明实施例中提供的技术方案与现有技术相比,具有以下优点:
(1)利用了百度百科的义项分类信息和各义项解释文本来识别不同上下问的词语词义;
(2)提出了一种基于上下文文本重要性评分的文本相似度计算方法,能够在线地计算衡量词语上下文文本和义项的解释文本之间的相似度;
(3)利用词语在百度百科中不同义项的含义标识来标识多义词,更为直观,并且能够进一步获取更多的解释文本;
(3)本方案不需要人工手动标识训练集、也不需要离线下载语料库,直接通过在线的网页解析获取词语义项信息,对不同语境的多义词进行识别;
(4)本方案包含的词汇量极其丰富,能够覆盖绝大部分文本信息处理的需求,而且能够不断地动态更新。
实施例三
基于同一发明构思,本发明实施例还提供了一种文本信息处理装置。图4为本发明实施例中文本信息处理装置的第一组成结构示意图,如图4所示,该文本信息处理装置40包括:处理器401和存储器402,其中,
处理器401用于执行存储器402中存储的文本信息处理程序,以实现以下步骤:
获取目标文本信息对应的至少两个义项;其中,至少两个义项中包含对目标文本信息的不同解释文本;
基于目标文本信息的上下文文本和至少两个义项的解释文本,确定上下文文本与每一个义项之间的相关特征参数;
根据上下文文本与每一个义项之间的相关特征参数,选取目标文本信息所对应的目标义项。
在一些实施例中,处理器401具体用于执行存储器402中存储的文本信息处理程序,以实现以下步骤:对目标文本信息的上下文文本进行分词处理,得到第一词语集合;基于第一词语集合和至少两个义项的解释文本,计算第一词语集合与每一个义项的解释文本之间的相关特征参数;将第一词语集合与每一个义项的解释文本之间的相关特征参数,作为上下文文本与每一个义项之间的相关特征参数。
在一些实施例中,处理器401具体用于执行存储器402中存储的文本信息处理程序,以实现以下步骤:计算第一词语集合中每一个词语的权重值;计算第一词语集合中每一个词语在第一解释文本中的逆文本频率指数TF-IDF;其中,第一解释文本为至少两个义项的解释文本中任一个解释文本;基于第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算第一词语集合与每一个义项的解释文本之间的相关特征参数。
在一些实施例中,处理器401具体用于执行存储器402中存储的文本信息处理程序,以实现以下步骤:基于第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算每一个词语与第一解释文本之间的相关特征参数;基于每一个词语与第一解释文本之间的相关特征参数,计算第一词语集合与每一个义项的解释文本之间的相关特征参数。
在一些实施例中,处理器401具体用于执行存储器402中存储的文本信息处理程序,以实现以下步骤:从网络侧在线获取目标文本信息对应的至少两个义项。
在实际应用中,上述存储器可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatile memory),例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory),硬盘(HDD,HardDisk Drive)或固态硬盘(SSD,Solid-State Drive);或者上述种类的存储器的组合,并向处理器提供指令和数据。
上述处理器可以为中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)、或现场可编程门阵列(Field Programmable Gate Array,FPGA)中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
实施例四
基于同一发明构思,本发明实施例还提供了另一种文本信息处理装置。图5为本发明实施例中文本信息处理装置的第二组成结构示意图,如图5所示,该文本信息处理装置50包括:
获取单元501,用于获取目标文本信息对应的至少两个义项;其中,至少两个义项中包含对目标文本信息的不同解释文本;
处理单元502,用于基于目标文本信息的上下文文本和至少两个义项的解释文本,确定上下文文本与每一个义项之间的相关特征参数;
选取单元503,根据上下文文本与每一个义项之间的相关特征参数,选取目标文本信息所对应的目标义项。
在一些实施例中,处理单元502,具体用于对目标文本信息的上下文文本进行分词处理,得到第一词语集合;基于第一词语集合和至少两个义项的解释文本,计算第一词语集合与每一个义项的解释文本之间的相关特征参数;将第一词语集合与每一个义项的解释文本之间的相关特征参数,作为上下文文本与每一个义项之间的相关特征参数。
在一些实施例中,处理单元502,具体用于计算第一词语集合中每一个词语的权重值;计算第一词语集合中每一个词语在第一解释文本中的逆文本频率指数TF-IDF;其中,第一解释文本为至少两个义项的解释文本中任一个解释文本;基于第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算第一词语集合与每一个义项的解释文本之间的相关特征参数。
在一些实施例中,处理单元502,具体用于基于第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算每一个词语与第一解释文本之间的相关特征参数;基于每一个词语与第一解释文本之间的相关特征参数,计算第一词语集合与每一个义项的解释文本之间的相关特征参数。
在一些实施例中,获取单元501,具体用于从网络侧在线获取目标文本信息对应的至少两个义项。
上述各个单元之间通过总线系统504实现连接通信,总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统504。
在实际应用中,上述各个单元的功能均可由位于文本信息处理装置CPU、MPU、DSP、FPGA等实现。
实施例五
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由终端的处理器执行,以完成前述一个或者更多个实施例中的方法步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置、和计算机程序产品的流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (8)
1.一种文本信息处理方法,其特征在于,所述方法包括:
获取目标文本信息对应的至少两个义项;其中,所述至少两个义项中包含对所述目标文本信息的不同解释文本;
对所述目标文本信息的上下文文本进行分词处理,得到第一词语集合;
计算所述第一词语集合中每一个词语的权重值;所述词语的权重值是由所述第一词语集合中所述词语在上下文中出现的次数与上文文本中第一词语集合中所有词语出现的总次数决定;
计算所述第一词语集合中每一个词语在第一解释文本中的逆文本频率指数TF-IDF;其中,所述第一解释文本为所述至少两个义项的解释文本中任一个解释文本;
基于所述第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数;
将所述第一词语集合与每一个义项的解释文本之间的相关特征参数,作为所述上下文文本与每一个义项之间的相关特征参数;
根据所述上下文文本与每一个义项之间的相关特征参数,选取所述目标文本信息所对应的目标义项。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数,包括:
基于所述第一词语集合中每一个词语的权重值和每一个词语在所述第一解释文本中的TF-IDF,计算每一个词语与所述第一解释文本之间的相关特征参数;
基于每一个词语与所述第一解释文本之间的相关特征参数,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数。
3.根据权利要求1所述的方法,其特征在于,所述获取目标文本信息对应的至少两个义项,包括:从网络侧在线获取目标文本信息对应的至少两个义项。
4.一种文本信息处理装置,其特征在于,所述装置包括:处理器和存储器;其中,
所述处理器用于执行存储器中存储的文本信息处理程序,以实现以下步骤:
获取目标文本信息对应的至少两个义项;其中,所述至少两个义项中包含对所述目标文本信息的不同解释文本;
对所述目标文本信息的上下文文本进行分词处理,得到第一词语集合;
计算所述第一词语集合中每一个词语的权重值;所述词语的权重值是由所述第一词语集合中所述词语在上下文中出现的次数与上文文本中第一词语集合中所有词语出现的总次数决定;
计算所述第一词语集合中每一个词语在第一解释文本中的逆文本频率指数TF-IDF;其中,所述第一解释文本为所述至少两个义项的解释文本中任一个解释文本;
基于所述第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数;
将所述第一词语集合与每一个义项的解释文本之间的相关特征参数,作为所述上下文文本与每一个义项之间的相关特征参数;
根据所述上下文文本与每一个义项之间的相关特征参数,选取所述目标文本信息所对应的目标义项。
5.根据权利要求4所述的装置,其特征在于,所述处理器具体用于执行存储器中存储的文本信息处理程序,以实现以下步骤:
基于所述第一词语集合中每一个词语的权重值和每一个词语在所述第一解释文本中的TF-IDF,计算每一个词语与所述第一解释文本之间的相关特征参数;
基于每一个词语与所述第一解释文本之间的相关特征参数,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数。
6.根据权利要求4所述的装置,其特征在于,所述处理器具体用于执行存储器中存储的文本信息处理程序,以实现以下步骤:从网络侧在线获取目标文本信息对应的至少两个义项。
7.一种文本信息处理装置,其特征在于,所述装置包括:
获取单元,用于获取目标文本信息对应的至少两个义项;其中,所述至少两个义项中包含对所述目标文本信息的不同解释文本;
处理单元,用于对所述目标文本信息的上下文文本进行分词处理,得到第一词语集合;计算所述第一词语集合中每一个词语的权重值;所述词语的权重值是由所述第一词语集合中所述词语在上下文中出现的次数与上文文本中第一词语集合中所有词语出现的总次数决定;计算所述第一词语集合中每一个词语在第一解释文本中的逆文本频率指数TF-IDF;其中,所述第一解释文本为所述至少两个义项的解释文本中任一个解释文本;基于所述第一词语集合中每一个词语的权重值和每一个词语在第一解释文本中的TF-IDF,计算所述第一词语集合与每一个义项的解释文本之间的相关特征参数;将所述第一词语集合与每一个义项的解释文本之间的相关特征参数,作为所述上下文文本与每一个义项之间的相关特征参数;
选取单元,根据所述上下文文本与每一个义项之间的相关特征参数,选取所述目标文本信息所对应的目标义项。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至3任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811010090.7A CN110929507B (zh) | 2018-08-31 | 2018-08-31 | 一种文本信息处理的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811010090.7A CN110929507B (zh) | 2018-08-31 | 2018-08-31 | 一种文本信息处理的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929507A CN110929507A (zh) | 2020-03-27 |
CN110929507B true CN110929507B (zh) | 2023-07-21 |
Family
ID=69854965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811010090.7A Active CN110929507B (zh) | 2018-08-31 | 2018-08-31 | 一种文本信息处理的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929507B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723116B (zh) * | 2021-08-25 | 2024-02-13 | 中国科学技术大学 | 文本翻译方法及相关装置、电子设备、存储介质 |
CN114757146A (zh) * | 2022-03-18 | 2022-07-15 | 北京字节跳动网络技术有限公司 | 一种文本编辑方法、装置、电子设备和存储介质 |
CN117521680A (zh) * | 2024-01-04 | 2024-02-06 | 深圳和成视讯科技有限公司 | 一种记录仪的在线翻译方法及记录仪 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
WO2016161089A1 (en) * | 2015-04-03 | 2016-10-06 | Klangoo, Inc. | Techniques for understanding the aboutness of text based on semantic analysis |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN108446269A (zh) * | 2018-03-05 | 2018-08-24 | 昆明理工大学 | 一种基于词向量的词义消歧方法及装置 |
-
2018
- 2018-08-31 CN CN201811010090.7A patent/CN110929507B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
WO2016161089A1 (en) * | 2015-04-03 | 2016-10-06 | Klangoo, Inc. | Techniques for understanding the aboutness of text based on semantic analysis |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN108446269A (zh) * | 2018-03-05 | 2018-08-24 | 昆明理工大学 | 一种基于词向量的词义消歧方法及装置 |
Non-Patent Citations (1)
Title |
---|
常娥 ; 张长秀 ; 侯汉清 ; 惠富平 ; .基于向量空间模型的古汉语词义自动消歧研究.图书情报工作.(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110929507A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al Tamimi et al. | AARI: automatic Arabic readability index. | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN110929507B (zh) | 一种文本信息处理的方法、装置及存储介质 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN101782898A (zh) | 一种情感词倾向性的分析方法 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN112015862B (zh) | 基于层级多通道注意力的用户异常评论检测方法及系统 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN105205124A (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN108388660A (zh) | 一种改进的电商产品痛点分析方法 | |
JP2012108570A (ja) | 単語意味関係抽出装置及び単語意味関係抽出方法 | |
CN108470026A (zh) | 新闻标题的句子主干内容提取方法及装置 | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
CN111831833A (zh) | 知识图谱的构建方法及装置 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN113392637B (zh) | 基于tf-idf的主题词提取方法、装置、设备及存储介质 | |
CN111274384B (zh) | 一种文本标注方法及其设备、计算机存储介质 | |
CN110532538B (zh) | 财产纠纷裁判文书关键实体抽取算法 | |
JPH08166965A (ja) | 日本語テキスト自動分類方法 | |
Oco et al. | Measuring language similarity using trigrams: Limitations of language identification | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |