CN108804410B - 一种基于人工智能文本语义相似度分析的语义解释方法 - Google Patents

一种基于人工智能文本语义相似度分析的语义解释方法 Download PDF

Info

Publication number
CN108804410B
CN108804410B CN201710315331.8A CN201710315331A CN108804410B CN 108804410 B CN108804410 B CN 108804410B CN 201710315331 A CN201710315331 A CN 201710315331A CN 108804410 B CN108804410 B CN 108804410B
Authority
CN
China
Prior art keywords
semantic
text
words
corpus
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710315331.8A
Other languages
English (en)
Other versions
CN108804410A (zh
Inventor
朱瑾鹏
朱笑萱
黄诗剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dataocean Smart Technology Co ltd
Original Assignee
Beijing Dataocean Smart Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dataocean Smart Technology Co ltd filed Critical Beijing Dataocean Smart Technology Co ltd
Priority to CN201710315331.8A priority Critical patent/CN108804410B/zh
Publication of CN108804410A publication Critical patent/CN108804410A/zh
Application granted granted Critical
Publication of CN108804410B publication Critical patent/CN108804410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于人工智能文本语义相似度分析的语义解释方法,包括步骤:步骤1)建立语义解释模型;步骤2)构建语义语料库,按语义解释模型人工标注文本并存储,每个文本对应一条语料;步骤3)统计计算,依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;步骤4)词语语义转换,对新文本D进行分词及过滤处理后,按需选取若干特征词语进行语义转换,建立向量空间模型V1;步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,合并V1与V2,得到全文本向量空间模型V;步骤6)对新文本D'重复步骤3、步骤4,得到其向量空间模型V';步骤7)利用余弦公式,计算文本D与D'相似度。

Description

一种基于人工智能文本语义相似度分析的语义解释方法
技术领域
本发明涉及一种文本语义分析领域,具体涉及一种基于人工智能文本语义相似度分析的语义解释方法。
背景技术
随着计算机互联网的飞速发展,文本相似度计算在许多领域有着广发的应用。例如,在智能机器翻译中,语义相似度通过衡量参考译文与智能机器翻译输出的等价程度来评估机器翻译的质量,此外,在信息检索、情感分析、文本分类、文本聚类、自动问答、语义消歧等领域中,文本相似度计算都是一项基础又重要的手段。
目前现有通过文本相似度计算对文本语义解释主要还存在仅能依赖词形计算,计算复杂,并且现有的分析方法准确率较低。
发明内容
本发明的目的即在于克服现有技术不足,,目的在于提供一种基于人工智能文本语义相似度分析的语义解释方法,解决现有通过文本相似度计算对文本语义解释仅能依赖词形计算,计算复杂,并且现有的分析方法准确率较低的问题。
本发明通过下述技术方案实现:
一种基于人工智能文本语义相似度分析的语义解释方法,包括步骤:
步骤1)建立语义解释模型;
步骤2)构建语义语料库,按语义解释模型人工标注文本并存储,每个文本对应一条语料;
步骤3)统计计算,依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;
步骤4)词语语义转换,对新文本D进行分词及过滤处理后,按需选取若干特征词语进行语义转换,建立向量空间模型V1
步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,合并V1与V2,得到全文本向量空间模型V;
步骤6)对新文本D'重复步骤3、步骤4,得到其向量空间模型V';
步骤7)利用余弦公式,计算文本D与D'相似度。
进一步的,所述步骤4)词语语义转换步骤包括:
步骤4.1)对于词语t,在语义语料库中选取包含t的所有语料,将原文t附近的j个词语作为t的正下文C;
步骤4.2)使用C与每条包含t的语料中的p类节点内容,计算词语匹配率;
步骤4.3)依据匹配率由高到低排序,根据设置的阈值ε,选取n条语料;
步骤4.4)在这n条语料中统计t的语义表示,将出现次数最多的p类型作为t的语义表示。
进一步的,所述步骤4.1),对新输入文本D,分词,去停止词,得到按出现顺序排列的词语列表[t1,t2,……,tn],依据统计词频由高到低选取前m个词语[t1',t2',……,tm'],m可取从1到n内的任意整数;
以tk'为例,设其在原文排序为i,将距离其最近的j个词语作为tk'上下文,即C:[ti-j/2,ti-j/2+1,……,ti+1,……,ti+j/2],其中j为窗口长度,取整数;当i-j/2<0时,令j=2i;当i-j/2在为小数时,下取整;当k+i/2为小数时,上取整。
进一步的,所述步骤4.2),在语义语料库中,选取包含tk'的所有语料,计算上下文C与各条语料p类节点内容的词语匹配率,公式如下:
Figure BDA0001287055550000031
其中,Nsame为t的正下文C与某语料p类节点相同的词语数。
进一步的,所述步骤4.3),选取匹配率高于ε的N条语料为候选语料,ε为阈值,取0到1间小数。
进一步的,所述步骤4.4),在这N条候选语料中统计tk'的p类型(如p1,p2,p3),将出现次数最多的p类型作为tk'的语义表示,如此转换后,对于同一词语,由于其所处上下文不同,则可能会得到不同的语义表示,这样即对同一词语语义不同的情况进行了区分,将同一个词在语义空间转变为不同的词;依次转换剩余的m-1个词语。
进一步的,所述步骤4.4),依据TF-IDF计算公式,计算权重,构建前m个高频词语的向量空间模型V1:[p1,p2,……,pm];TF-IDF值计算方式如下:
Figure BDA0001287055550000032
其中,tf为某词语经过语义转换后,该语义表示出现的频率,例如若词语为t,转换后其语义表示为pi,则tf即指文本中,语义表示为pi的t出现的次数;D为语义语料库中语料总数;Dw为包含t,且其语义表示为pi的语料数。
进一步的,所述步骤5),依据TF-IDF公式,计算余下n-m个词语的权重,构建向量空间模型V2:[w1,w2,……,wn-m]。由于这些词语未进行语义转换,因此与步骤10不同,tf即为词语在文中出现的频率,Dw为包含该词语的语料数;
合并V1与V2,得到文本的向量空间模型V:[p1,p2,……,pm,w1,w2,……,wn-m]。
进一步的,所述步骤7),利用余弦公式,:
Figure BDA0001287055550000041
计算V与V'的夹角余弦值,即D与D'的文本相似度;n为文本向量维数,wik为文档Di第k维的权重。
本发明与现有技术相比,具有如下的优点和有益效果:
提出一种语义解释模型,依据该模型对文本进行标注,可以有效反映词语语义,并且便于计算机存储、查询和处理。基于该模型建立的语料库,有效地保留了语义信息,可以突破目前仅能依赖词形计算的弊端,为后续文本挖掘提供良好基础,提高分析效果;
提出一种基于语义语料库的词语语义转换方法,显式表现词语语义,使计算机得以识别。另外,该方法基于语言统计特征,稳定高效,简单易实现。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于人工智能文本语义相似度分析的语义解释方法原理示意图;
图2为本发明词语语义转换实例原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种基于人工智能文本语义相似度分析的语义解释方法,以语义语料库为基础,基于词语语义转换的文本相似度计算方法如下:
步骤1)设计完善语义解释模型。自然语言灵活多变,为使计算结果尽可能准确,可依据本领域文本特点,设计事件描述维度、定义维度的各个描述阶段等,以保证模型尽量完善;
步骤2)语义标注,建立语料库。按设计的模型对原始文本语料人工进行标注并存储,每个文本对应一条语料;
步骤3)统计计算。依据建立的语料库,统计所有词语及其各个语义表示(如“p1-word”,“p2-word”)出现的语料数及语料库中的语料总数,用于后续建立文本向量空间模型;
步骤4)对新输入文本D,分词,去停止词,得到按出现顺序排列的词语列表[t1,t2,……,tn],依据统计词频由高到低选取前m个词语[t1',t2',……,tm'],m可取从1到n内的任意整数;
步骤5)以tk'为例,设其在原文排序为i,将距离其最近的j个词语作为tk'上下文,即C:[ti-j/2,ti-j/2+1,……,ti+1,……,ti+j/2],其中j为窗口长度,取整数;当i-j/2<0时,令j=2i;当i-j/2在为小数时,下取整;当k+i/2为小数时,上取整;
步骤6)在语义语料库中,选取包含tk'的所有语料,计算上下文C与各条语料p类节点内容的词语匹配率,公式如下:
Figure BDA0001287055550000061
其中,Nsame为t的正下文C与某语料p类节点相同的词语数;
步骤7)选取匹配率高于ε的N条语料为候选语料,ε为阈值,取0到1间小数;
步骤8)在这N条候选语料中统计tk'的p类型(如p1,p2,p3),将出现次数最多的p类型作为tk'的语义表示。如此转换后,对于同一词语,由于其所处上下文不同,则可能会得到不同的语义表示,这样即对同一词语语义不同的情况进行了区分,将同一个词在语义空间转变为不同的词;
步骤9)依次转换剩余的m-1个词语;
步骤10)依据TF-IDF计算公式,计算权重,构建前m个高频词语的向量空间模型V1:[p1,p2,……,pm]。TF-IDF值计算方式如下:
Figure BDA0001287055550000062
其中,tf为某词语经过语义转换后,该语义表示出现的频率,例如若词语为t,转换后其语义表示为pi,则tf即指文本中,语义表示为pi的t出现的次数;D为语义语料库中语料总数;Dw为包含t,且其语义表示为pi的语料数;
步骤11)依据TF-IDF公式,计算余下n-m个词语的权重,构建向量空间模型V2:[w1,w2,……,wn-m]。由于这些词语未进行语义转换,因此与步骤10不同,tf即为词语在文中出现的频率,Dw为包含该词语的语料数;
步骤12)合并V1与V2,得到文本的向量空间模型V:[p1,p2,……,pm,w1,w2,……,wn-m];
步骤13)对文本D',执行步骤4到步骤12,得到D'的向量空间模型V';
步骤14)利用余弦公式,计算V与V'的夹角余弦值,即D与D'的文本相似度。
Figure BDA0001287055550000071
n为文本向量维数,wik为文档Di第k维的权重。
如图2所示,词语语义转换步骤如下:
1)对于词语t,在语义语料库中选取包含t的所有语料,将原文t附近的j个词语作为t的正下文C;
2)使用C与每条包含t的语料中的p类节点内容,计算词语匹配率;
3)依据匹配率由高到低排序,根据设置的阈值ε,选取n条语料;
4)在这n条语料中统计t的语义表示,将出现次数最多的p类型(如上图中的p1,p2,p3)作为t的语义表示。
图中,S:发起者,即“谁说的”。对于一段文本,发起者仅有一个,即文本来源;
O:被描述对象,即“说的谁”。一段文本可以对多个对象进行描述,记为O1,O2,……,On
T:事件,即“怎么了”,如咨询、投诉等。每个被描述对象可能对应一个或多个事件,O1的事件记为T11,T12,……,T1m
time:事件时间;
location:事件地点;
distance:当事件地点确定时,无该节点;当地点不确定时,文本中经常会出现如“附近”、“周边”、“西南”等方位的描述,这些词语即作为事件地点的distance补充;
procedure:事件流转的过程,可以根据选取一个或多个维度对事件进行阐述;
d:事件阐述维度。如事件发展的一般进程(起因、现状、影响等)、时间次序(时间点1,时间点2,...,时间点n)、执行顺序(步骤1,步骤2,……,步骤n)等,这一部分可根据实际需求自行定义;
p:事件各个阶段阐述。
其中,图中每个叶子节点均为一个词语列表,这些词语均来自于原文。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,包括步骤:
步骤1)建立语义解释模型;
步骤2)构建语义语料库:按语义解释模型人工标注文本并存储,每个文本对应一条语料;
步骤3)统计计算:依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;
步骤4)词语语义转换:对新输入文本D,分词,去停止词,得到按出现顺序排列的词语列表[t1,t2,......,tn],依据统计词频由高到低选取前m个词语[t1',t2',......,tm'],m可取从1到n内的任意整数,按下述步骤行语义转换后,建立向量空间模型V1
步骤4.1)取其中任一词语tk'设其在原文排序为i,将距离其最近的j个词语作为tk'上下文,即C:[ti-j/2,ti-j/2+1,......,ti+1,......,ti+j/2],其中j为窗口长度,取整数;当i-j/2<0时,令j=2i;当i-j/2在不为整数时,下取整;当i+j/2不为整数时,上取整;
步骤4.2),在语义语料库中,选取包含tk'的所有语料,计算上下文C与各条语料p类节点内容的词语匹配率,公式如下:
Figure FDA0003370643220000011
其中,Nsame为tk'的上下文C与某语料p类节点内容相同的词语数;
步骤4.3),选取匹配率高于ε的N条语料为候选语料,ε为阈值,取0到1间小数;
步骤4.4),在N条候选语料中统计tk'的p类节点内容,将出现次数最多的p类节点内容作为tk'的语义表示;
步骤4.5)重复所述步骤4.1~4.4,依次转换剩余的m-1个词语;
步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,将V1与V2相加,得到全文本向量空间模型V;
步骤6)对新文本D'重复步骤3、步骤4和步骤5,得到其向量空间模型V';
步骤7)利用余弦公式,计算文本D与D'相似度。
2.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤4,依据TF-IDF计算公式,计算权重,构建前m个高频词语的所述向量空间模型V1:[p1,p2,......,pm];TF-IDF值计算公式如下:
Figure FDA0003370643220000021
其中,tf为某词语经过语义转换后,该语义表示出现的频率,例如若词语为t,转换后其语义表示为pi,则tf即指文本中,语义表示为pi的t出现的次数;D为语义语料库中语料总数;Dw为包含t,且其语义表示为pi的语料数。
3.根据权利要求2所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤5),依据所述TF-IDF值计算公式,计算余下n-m个词语的权重,构建所述向量空间模型V2:[w1,w2,......,wn-m],其中tf为词语在文中出现的频率,Dw为包含该词语的语料数。
4.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤7),利用余弦公式:
Figure FDA0003370643220000022
计算V与V'的夹角余弦值,即D与D'的文本相似度;n为文本向量维数,wik为文档Di第k维的权重。
CN201710315331.8A 2017-05-05 2017-05-05 一种基于人工智能文本语义相似度分析的语义解释方法 Active CN108804410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710315331.8A CN108804410B (zh) 2017-05-05 2017-05-05 一种基于人工智能文本语义相似度分析的语义解释方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710315331.8A CN108804410B (zh) 2017-05-05 2017-05-05 一种基于人工智能文本语义相似度分析的语义解释方法

Publications (2)

Publication Number Publication Date
CN108804410A CN108804410A (zh) 2018-11-13
CN108804410B true CN108804410B (zh) 2022-03-29

Family

ID=64094163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710315331.8A Active CN108804410B (zh) 2017-05-05 2017-05-05 一种基于人工智能文本语义相似度分析的语义解释方法

Country Status (1)

Country Link
CN (1) CN108804410B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990724B (zh) * 2019-10-24 2023-06-06 武汉大学 一种基于滑动窗口采样的空间语义相似度计算方法
CN111539213B (zh) * 2020-04-17 2022-07-01 华侨大学 一种多源管理条款的语义互斥的智能检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN105808711A (zh) * 2016-03-04 2016-07-27 北京工业大学 一种基于文本语义的概念生成模型的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818732B2 (en) * 2006-05-08 2010-10-19 Protomatics, Inc. Transfer syntax notational system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN105808711A (zh) * 2016-03-04 2016-07-27 北京工业大学 一种基于文本语义的概念生成模型的系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义的文本相似度算法研究及应用;张金鹏;《中国优秀硕士学位论文全文数据库信息科技辑》;20150131(第1期);第I138-1594页 *

Also Published As

Publication number Publication date
CN108804410A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
Ni et al. Sentiment Analysis based on GloVe and LSTM-GRU
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN104699763B (zh) 多特征融合的文本相似性度量系统
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN108334495A (zh) 短文本相似度计算方法及系统
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
WO2020151218A1 (zh) 电力专业词库生成方法及装置、存储介质
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN107168956B (zh) 一种基于管道的中文篇章结构分析方法及系统
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
Rohini et al. Domain based sentiment analysis in regional Language-Kannada using machine learning algorithm
CN104317965A (zh) 基于语料的情感词典构建方法
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
Ojha et al. Training & evaluation of POS taggers in Indo-Aryan languages: A case of Hindi, Odia and Bhojpuri
CN112860889A (zh) 一种基于bert的多标签分类方法
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN108804410B (zh) 一种基于人工智能文本语义相似度分析的语义解释方法
CN104182463A (zh) 一种基于语义的文本分类方法
Wong et al. isentenizer-: Multilingual sentence boundary detection model
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
Hashemzadeh et al. Improving keyword extraction in multilingual texts.
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
CN111930936A (zh) 一种平台留言文本挖掘方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant