CN108804410A - 一种基于人工智能文本语义相似度分析的语义解释方法 - Google Patents
一种基于人工智能文本语义相似度分析的语义解释方法 Download PDFInfo
- Publication number
- CN108804410A CN108804410A CN201710315331.8A CN201710315331A CN108804410A CN 108804410 A CN108804410 A CN 108804410A CN 201710315331 A CN201710315331 A CN 201710315331A CN 108804410 A CN108804410 A CN 108804410A
- Authority
- CN
- China
- Prior art keywords
- semantic
- text
- word
- language material
- vector space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于人工智能文本语义相似度分析的语义解释方法,包括步骤:步骤1)建立语义解释模型;步骤2)构建语义语料库,按语义解释模型人工标注文本并存储,每个文本对应一条语料;步骤3)统计计算,依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;步骤4)词语语义转换,对新文本D进行分词及过滤处理后,按需选取若干特征词语进行语义转换,建立向量空间模型V1;步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,合并V1与V2,得到全文本向量空间模型V;步骤6)对新文本D'重复步骤3、步骤4,得到其向量空间模型V';步骤7)利用余弦公式,计算文本D与D'相似度。
Description
技术领域
本发明涉及一种文本语义分析领域,具体涉及一种基于人工智能文本语义相似度分析的语义解释方法。
背景技术
随着计算机互联网的飞速发展,文本相似度计算在许多领域有着广发的应用。例如,在智能机器翻译中,语义相似度通过衡量参考译文与智能机器翻译输出的等价程度来评估机器翻译的质量,此外,在信息检索、情感分析、文本分类、文本聚类、自动问答、语义消歧等领域中,文本相似度计算都是一项基础又重要的手段。
目前现有通过文本相似度计算对文本语义解释主要还存在仅能依赖词形计算,计算复杂,并且现有的分析方法准确率较低。
发明内容
本发明的目的即在于克服现有技术不足,,目的在于提供一种基于人工智能文本语义相似度分析的语义解释方法,解决现有通过文本相似度计算对文本语义解释仅能依赖词形计算,计算复杂,并且现有的分析方法准确率较低的问题。
本发明通过下述技术方案实现:
一种基于人工智能文本语义相似度分析的语义解释方法,包括步骤:
步骤1)建立语义解释模型;
步骤2)构建语义语料库,按语义解释模型人工标注文本并存储,每个文本对应一条语料;
步骤3)统计计算,依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;
步骤4)词语语义转换,对新文本D进行分词及过滤处理后,按需选取若干特征词语进行语义转换,建立向量空间模型V1;
步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,合并V1与V2,得到全文本向量空间模型V;
步骤6)对新文本D'重复步骤3、步骤4,得到其向量空间模型V';
步骤7)利用余弦公式,计算文本D与D'相似度。
进一步的,所述步骤4)词语语义转换步骤包括:
步骤4.1)对于词语t,在语义语料库中选取包含t的所有语料,将原文t附近的j个词语作为t的正下文C;
步骤4.2)使用C与每条包含t的语料中的p类节点内容,计算词语匹配率;
步骤4.3)依据匹配率由高到低排序,根据设置的阈值ε,选取n条语料;
步骤4.4)在这n条语料中统计t的语义表示,将出现次数最多的p类型作为t的语义表示。
进一步的,所述步骤4.1),对新输入文本D,分词,去停止词,得到按出现顺序排列的词语列表[t1,t2,……,tn],依据统计词频由高到低选取前m个词语[t1',t2',……,tm'],m可取从1到n内的任意整数;
以tk'为例,设其在原文排序为i,将距离其最近的j个词语作为tk'上下文,即C:[ti-j/2,ti-j/2+1,……,ti+1,……,ti+j/2],其中j为窗口长度,取整数;当i-j/2<0时,令j=2i;当i-j/2在为小数时,下取整;当k+i/2为小数时,上取整。
进一步的,所述步骤4.2),在语义语料库中,选取包含tk'的所有语料,计算上下文C与各条语料p类节点内容的词语匹配率,公式如下:
其中,Nsame为t的正下文C与某语料p类节点相同的词语数。
进一步的,所述步骤4.3),选取匹配率高于ε的N条语料为候选语料,ε为阈值,取0到1间小数。
进一步的,所述步骤4.4),在这N条候选语料中统计tk'的p类型(如p1,p2,p3),将出现次数最多的p类型作为tk'的语义表示,如此转换后,对于同一词语,由于其所处上下文不同,则可能会得到不同的语义表示,这样即对同一词语语义不同的情况进行了区分,将同一个词在语义空间转变为不同的词;依次转换剩余的m-1个词语。
进一步的,所述步骤4.4),依据TF-IDF计算公式,计算权重,构建前m个高频词语的向量空间模型V1:[p1,p2,……,pm];TF-IDF值计算方式如下:
其中,tf为某词语经过语义转换后,该语义表示出现的频率,例如若词语为t,转换后其语义表示为pi,则tf即指文本中,语义表示为pi的t出现的次数;D为语义语料库中语料总数;Dw为包含t,且其语义表示为pi的语料数。
进一步的,所述步骤5),依据TF-IDF公式,计算余下n-m个词语的权重,构建向量空间模型V2:[w1,w2,……,wn-m]。由于这些词语未进行语义转换,因此与步骤10不同,tf即为词语在文中出现的频率,Dw为包含该词语的语料数;
合并V1与V2,得到文本的向量空间模型V:[p1,p2,……,pm,w1,w2,……,wn-m]。
进一步的,所述步骤7),利用余弦公式,:
计算V与V'的夹角余弦值,即D与D'的文本相似度;n为文本向量维数,wik为文档Di第k维的权重。
本发明与现有技术相比,具有如下的优点和有益效果:
提出一种语义解释模型,依据该模型对文本进行标注,可以有效反映词语语义,并且便于计算机存储、查询和处理。基于该模型建立的语料库,有效地保留了语义信息,可以突破目前仅能依赖词形计算的弊端,为后续文本挖掘提供良好基础,提高分析效果;
提出一种基于语义语料库的词语语义转换方法,显式表现词语语义,使计算机得以识别。另外,该方法基于语言统计特征,稳定高效,简单易实现。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于人工智能文本语义相似度分析的语义解释方法原理示意图;
图2为本发明词语语义转换实例原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种基于人工智能文本语义相似度分析的语义解释方法,以语义语料库为基础,基于词语语义转换的文本相似度计算方法如下:
步骤1)设计完善语义解释模型。自然语言灵活多变,为使计算结果尽可能准确,可依据本领域文本特点,设计事件描述维度、定义维度的各个描述阶段等,以保证模型尽量完善;
步骤2)语义标注,建立语料库。按设计的模型对原始文本语料人工进行标注并存储,每个文本对应一条语料;
步骤3)统计计算。依据建立的语料库,统计所有词语及其各个语义表示(如“p1-word”,“p2-word”)出现的语料数及语料库中的语料总数,用于后续建立文本向量空间模型;
步骤4)对新输入文本D,分词,去停止词,得到按出现顺序排列的词语列表[t1,t2,……,tn],依据统计词频由高到低选取前m个词语[t1',t2',……,tm'],m可取从1到n内的任意整数;
步骤5)以tk'为例,设其在原文排序为i,将距离其最近的j个词语作为tk'上下文,即C:[ti-j/2,ti-j/2+1,……,ti+1,……,ti+j/2],其中j为窗口长度,取整数;当i-j/2<0时,令j=2i;当i-j/2在为小数时,下取整;当k+i/2为小数时,上取整;
步骤6)在语义语料库中,选取包含tk'的所有语料,计算上下文C与各条语料p类节点内容的词语匹配率,公式如下:
其中,Nsame为t的正下文C与某语料p类节点相同的词语数;
步骤7)选取匹配率高于ε的N条语料为候选语料,ε为阈值,取0到1间小数;
步骤8)在这N条候选语料中统计tk'的p类型(如p1,p2,p3),将出现次数最多的p类型作为tk'的语义表示。如此转换后,对于同一词语,由于其所处上下文不同,则可能会得到不同的语义表示,这样即对同一词语语义不同的情况进行了区分,将同一个词在语义空间转变为不同的词;
步骤9)依次转换剩余的m-1个词语;
步骤10)依据TF-IDF计算公式,计算权重,构建前m个高频词语的向量空间模型V1:[p1,p2,……,pm]。TF-IDF值计算方式如下:
其中,tf为某词语经过语义转换后,该语义表示出现的频率,例如若词语为t,转换后其语义表示为pi,则tf即指文本中,语义表示为pi的t出现的次数;D为语义语料库中语料总数;Dw为包含t,且其语义表示为pi的语料数;
步骤11)依据TF-IDF公式,计算余下n-m个词语的权重,构建向量空间模型V2:[w1,w2,……,wn-m]。由于这些词语未进行语义转换,因此与步骤10不同,tf即为词语在文中出现的频率,Dw为包含该词语的语料数;
步骤12)合并V1与V2,得到文本的向量空间模型V:[p1,p2,……,pm,w1,w2,……,wn-m];
步骤13)对文本D',执行步骤4到步骤12,得到D'的向量空间模型V';
步骤14)利用余弦公式,计算V与V'的夹角余弦值,即D与D'的文本相似度。
n为文本向量维数,wik为文档Di第k维的权重。
如图2所示,词语语义转换步骤如下:
1)对于词语t,在语义语料库中选取包含t的所有语料,将原文t附近的j个词语作为t的正下文C;
2)使用C与每条包含t的语料中的p类节点内容,计算词语匹配率;
3)依据匹配率由高到低排序,根据设置的阈值ε,选取n条语料;
4)在这n条语料中统计t的语义表示,将出现次数最多的p类型(如上图中的p1,p2,p3)作为t的语义表示。
图中,S:发起者,即“谁说的”。对于一段文本,发起者仅有一个,即文本来源;
O:被描述对象,即“说的谁”。一段文本可以对多个对象进行描述,记为O1,O2,……,On;
T:事件,即“怎么了”,如咨询、投诉等。每个被描述对象可能对应一个或多个事件,O1的事件记为T11,T12,……,T1m;
time:事件时间;
location:事件地点;
distance:当事件地点确定时,无该节点;当地点不确定时,文本中经常会出现如“附近”、“周边”、“西南”等方位的描述,这些词语即作为事件地点的distance补充;
procedure:事件流转的过程,可以根据选取一个或多个维度对事件进行阐述;
d:事件阐述维度。如事件发展的一般进程(起因、现状、影响等)、时间次序(时间点1,时间点2,...,时间点n)、执行顺序(步骤1,步骤2,……,步骤n)等,这一部分可根据实际需求自行定义;
p:事件各个阶段阐述。
其中,图中每个叶子节点均为一个词语列表,这些词语均来自于原文。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,包括步骤:
步骤1)建立语义解释模型;
步骤2)构建语义语料库,按语义解释模型人工标注文本并存储,每个文本对应一条语料;
步骤3)统计计算,依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;
步骤4)词语语义转换,对新文本D进行分词及过滤处理后,按需选取若干特征词语进行语义转换,建立向量空间模型V1;
步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,合并V1与V2,得到全文本向量空间模型V;
步骤6)对新文本D'重复步骤3、步骤4,得到其向量空间模型V';
步骤7)利用余弦公式,计算文本D与D'相似度。
2.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤4)词语语义转换步骤包括:
步骤4.1)对于词语t,在语义语料库中选取包含t的所有语料,将原文t附近的j个词语作为t的正下文C;
步骤4.2)使用C与每条包含t的语料中的p类节点内容,计算词语匹配率;
步骤4.3)依据匹配率由高到低排序,根据设置的阈值ε,选取前N条语料;
步骤4.4)在这n条语料中统计t的语义表示,将出现次数最多的p类型作为t的语义表示。
3.根据权利要求2所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤4.1),对新输入文本D,分词,去停止词,得到按出现顺序排列的词语列表[t1,t2,……,tn],依据统计词频由高到低选取前m个词语[t1',t2',……,tm'],m可取从1到n内的任意整数;
以tk'为例,设其在原文排序为i,将距离其最近的j个词语作为tk'上下文,即C:[ti-j/2,ti-j/2+1,……,ti+1,……,ti+j/2],其中j为窗口长度,取整数;当i-j/2<0时,令j=2i;当i-j/2在为小数时,下取整;当i+j/2为小数时,上取整。
4.根据权利要求2所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤4.2),在语义语料库中,选取包含tk'的所有语料,计算上下文C与各条语料p类节点内容的词语匹配率,公式如下:
其中,Nsame为tk'的上下文C与某语料p类节点相同的词语数。
5.根据权利要求2所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤4.3),选取匹配率高于ε的N条语料为候选语料,ε为阈值,取0到1间小数。
6.根据权利要求2所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤4.4),在这N条候选语料中统计tk'的p类型(如p1,p2,p3),将出现次数最多的p类型作为tk'的语义表示,如此转换后,对于同一词语,由于其所处上下文不同,则可能会得到不同的语义表示,这样即对同一词语语义不同的情况进行了区分,将同一个词在语义空间转变为不同的词;依次转换剩余的m-1个词语。
7.根据权利要求6所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤4.4),依据TF-IDF计算公式,计算权重,构建前m个高频词语的向量空间模型V1:[p1,p2,……,pm];TF-IDF值计算方式如下:
其中,tf为某词语经过语义转换后,该语义表示出现的频率,例如若词语为t,转换后其语义表示为pi,则tf即指文本中,语义表示为pi的t出现的次数;D为语义语料库中语料总数;Dw为包含t,且其语义表示为pi的语料数。
8.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤5),依据TF-IDF公式,计算余下n-m个词语的权重,构建向量空间模型V2:[w1,w2,……,wn-m]。由于这些词语未进行语义转换,因此tf即为词语在文中出现的频率,Dw为包含该词语的语料数;
合并V1与V2,得到文本的向量空间模型V:[p1,p2,……,pm,w1,w2,……,wn-m]。
9.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤7),利用余弦公式,:
计算V与V'的夹角余弦值,即D与D'的文本相似度;n为文本向量维数,wik为文档Di第k维的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710315331.8A CN108804410B (zh) | 2017-05-05 | 2017-05-05 | 一种基于人工智能文本语义相似度分析的语义解释方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710315331.8A CN108804410B (zh) | 2017-05-05 | 2017-05-05 | 一种基于人工智能文本语义相似度分析的语义解释方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804410A true CN108804410A (zh) | 2018-11-13 |
CN108804410B CN108804410B (zh) | 2022-03-29 |
Family
ID=64094163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710315331.8A Active CN108804410B (zh) | 2017-05-05 | 2017-05-05 | 一种基于人工智能文本语义相似度分析的语义解释方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804410B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990724A (zh) * | 2019-10-24 | 2020-04-10 | 武汉大学 | 一种基于滑动窗口采样的空间语义相似度计算方法 |
CN111539213A (zh) * | 2020-04-17 | 2020-08-14 | 华侨大学 | 一种多源管理条款的语义互斥的智能检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070260740A1 (en) * | 2006-05-08 | 2007-11-08 | Zaijin Guan | Transfer syntax notational system and method |
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索系统 |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
CN105808711A (zh) * | 2016-03-04 | 2016-07-27 | 北京工业大学 | 一种基于文本语义的概念生成模型的系统和方法 |
-
2017
- 2017-05-05 CN CN201710315331.8A patent/CN108804410B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070260740A1 (en) * | 2006-05-08 | 2007-11-08 | Zaijin Guan | Transfer syntax notational system and method |
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索系统 |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
CN105808711A (zh) * | 2016-03-04 | 2016-07-27 | 北京工业大学 | 一种基于文本语义的概念生成模型的系统和方法 |
Non-Patent Citations (1)
Title |
---|
张金鹏: "基于语义的文本相似度算法研究及应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990724A (zh) * | 2019-10-24 | 2020-04-10 | 武汉大学 | 一种基于滑动窗口采样的空间语义相似度计算方法 |
CN110990724B (zh) * | 2019-10-24 | 2023-06-06 | 武汉大学 | 一种基于滑动窗口采样的空间语义相似度计算方法 |
CN111539213A (zh) * | 2020-04-17 | 2020-08-14 | 华侨大学 | 一种多源管理条款的语义互斥的智能检测方法 |
CN111539213B (zh) * | 2020-04-17 | 2022-07-01 | 华侨大学 | 一种多源管理条款的语义互斥的智能检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108804410B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104102626B (zh) | 一种用于短文本语义相似度计算的方法 | |
PhridviRaj et al. | Data mining–past, present and future–a typical survey on data streams | |
CN105389341B (zh) | 一种客服电话重复来电工单的文本聚类与分析方法 | |
CN110210028B (zh) | 针对语音转译文本的领域特征词提取方法、装置、设备及介质 | |
Duwairi et al. | Sentiment analysis for Arabizi text | |
LeCompte et al. | Sentiment analysis of tweets including emoji data | |
KR101713558B1 (ko) | 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법 | |
Kaibi et al. | A comparative evaluation of word embeddings techniques for twitter sentiment analysis | |
CN106202065B (zh) | 一种跨语言话题检测方法及系统 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN108519971A (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN103678287A (zh) | 一种关键词翻译统一的方法 | |
CN108363691A (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
Mestry et al. | Automation in social networking comments with the help of robust fasttext and cnn | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
CN103246655A (zh) | 一种文本分类方法、装置及系统 | |
Sahni | Prostitution and beyond: An analysis of sex work in India | |
CN108763192A (zh) | 用于文本处理的实体关系抽取方法及装置 | |
Hasan et al. | Topic modelling: A comparison of the performance of latent Dirichlet allocation and LDA2vec model on Bangla newspaper | |
CN108804410A (zh) | 一种基于人工智能文本语义相似度分析的语义解释方法 | |
Rotim et al. | Comparison of short-text sentiment analysis methods for croatian | |
Klampfl et al. | Machine learning techniques for automatically extracting contextual information from scientific publications | |
Prasad | Micro-blogging sentiment analysis using bayesian classification methods | |
CN102591976A (zh) | 基于句子级别的文本特征提取方法和文档拷贝检测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |