CN110413989B - 一种基于领域语义关系图的文本领域确定方法与系统 - Google Patents

一种基于领域语义关系图的文本领域确定方法与系统 Download PDF

Info

Publication number
CN110413989B
CN110413989B CN201910533898.1A CN201910533898A CN110413989B CN 110413989 B CN110413989 B CN 110413989B CN 201910533898 A CN201910533898 A CN 201910533898A CN 110413989 B CN110413989 B CN 110413989B
Authority
CN
China
Prior art keywords
text
vocabulary
domain
semantic
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910533898.1A
Other languages
English (en)
Other versions
CN110413989A (zh
Inventor
吴旭
颉夏青
田钟林
许晋
方滨兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910533898.1A priority Critical patent/CN110413989B/zh
Publication of CN110413989A publication Critical patent/CN110413989A/zh
Application granted granted Critical
Publication of CN110413989B publication Critical patent/CN110413989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种领域语义关系图的文本领域确定方法与系统,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要针对特殊领域对文本进行分析。通过设置语义关联关系、权重系数和专属属性,提高灵活性和针对性。

Description

一种基于领域语义关系图的文本领域确定方法与系统
技术领域
本申请涉及信息处理领域,尤其涉及一种基于领域语义关系图的文本领域确定方法与系统。
背景技术
随着大数据时代的快速发展,网络社区和社交媒体成为自由、匿名言论的聚集地。由于网络社区和社交媒体具有匿名性、便捷性和超越时空限制等特点。大量用户可以自由、随意地在这些网络平台上分享自己的意见、见解和对热点事件的看法等。对网络平台上随时产生的文本数据进行实时分析,可以及时掌握用户对热点事件的看法和情绪,检测出其中的不良言论和突发舆情。对随时产生的突发舆情和不良言论进行及时合理的引导,可以有效的提高网络空间的安全性和可信性,具有非常重要的社会意义。然而现有的方法无法根据需要,针对特殊领域对文本进行分析。
综上所述,需要提供一种能够根据需要,针对特殊领域对文本进行分析的方法与系统。
发明内容
为解决以上问题,本申请提出了一种基于领域语义关系图的文本领域确定方法与系统。
一方面,本申请提出一种基于领域语义关系图的文本领域确定方法,包括:
对待分析文本进行处理得到语句集合和文本词汇集合;
确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;
根据语句集合和领域语义关系图,确定词汇联合得分;
根据词汇联合得分和文本词汇得分确定领域总得分;
根据所述领域总得分确定所述待分析文本所属的文本领域。
优选地,根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:
采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;
筛选文本数据,得到领域文本数据;
对领域文本数据进行分词,得到领域词汇集合;
提取领域词汇集合中的多个词汇;
根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;
针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;
根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。
优选地,所述对待分析文本进行处理得到语句集合和文本词汇集合,包括:
对待分析文本进行预处理,得到预处理后的文本;
对所述预处理后的文本进行分句,得到语句集合;
对所述语句集合进行分词,得到文本词汇集合。
优选地,所述确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,包括:
查询文本词汇集合中各词汇在领域语义关系图中的关注指数;
若该词汇存在于领域语义关系图中,则返回该词汇的关注指数;
若该词汇不存在于领域语义关系图中,则返回数值0;
根据得到的关注指数确定文本词汇得分。
优选地,所述根据语句集合和领域语义关系图,确定词汇联合得分,包括:
对语句集合中的每个语句进行依存句法分析,得到依存句法关系树;
根据依存句法树中涉及到的词汇,确定词汇的联合得分。
优选地,按照以下公式确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分:
Figure BDA0002100588640000021
其中Wi为文本词汇集合中包含的各词汇;G(Wi)为该词汇在领域语义关系图中的关注指数;Ni为该词汇在待分析文本中总共出现的有效次数;Sw为文本词汇得分。
优选地,按照以下公式确定词汇联合得分:
Figure BDA0002100588640000022
Figure BDA0002100588640000031
其中Wi和Wj为依存关系树中的两个词汇;L(Wi,Wj)为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,L(Wi,Wj)的值为正无穷大;G(Wi)为词汇Wi的关注指数;G(Wj)为词汇Wj的关注指数;Sr(Wi,Wj)为词汇联合得分。
优选地,按照以下公式确定领域总得分:Ss=A*SW+B*∑Sr(Wi,Wj),其中A和B分别对应SW和Sr的权重系数;SW为文本词汇得分;Sr(Wi,Wj)为词汇联合得分。
优选地,所述领域专属属性为自定义的属性,包括关注指数和类型。
第二方面,本申请提出一种基于领域语义关系图的文本领域确定系统,包括:
文本分析模块,用于对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域;
领域语义关系图构建模块,用于根据从网络平台中采集的文本生成领域语义关系图。
本申请的优点在于:根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要,针对特殊领域对文本进行分析。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:
图1是本申请提供的一种基于领域语义关系图的文本领域确定方法的步骤示意图;
图2是本申请提供的一种基于领域语义关系图的文本领域确定方法的领域语义关系的示意图;
图3是本申请提供的一种基于领域语义关系图的文本领域确定方法的领域语义关系图构建的示意图;
图4是本申请提供的一种基于领域语义关系图的文本领域确定方法的高校学生舆情领域语义关系图的局部截图;
图5是本申请提供的一种基于领域语义关系图的文本领域确定系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本申请的实施方式,提出一种基于领域语义关系图的文本领域确定方法,如图1所示,包括:
S101,对待分析文本进行处理得到语句集合和文本词汇集合;
S102,确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;
S103,根据语句集合和领域语义关系图,确定词汇联合得分;
S104,根据词汇联合得分和文本词汇得分确定领域总得分;
S105,根据所述领域总得分确定所述待分析文本所属的文本领域。
根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:
采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;
筛选文本数据,得到领域文本数据;
对领域文本数据进行分词,得到领域词汇集合;
提取领域词汇集合中的多个词汇;
根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;
针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;
根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。
在领域语义关系图中,语义节点是由领域要素组成。领域要素对应为自然语言中的一个词语。每一个与领域相关的词汇都视作一个领域要素,同时生成一个领域相关节点。领域要素主要由两部分组成,一部分为领域涉及到的实体,包括人物、机构、地点、专有名词等;另一部分为领域涉及到的事件词汇,如“抢劫”,“自杀”等词汇。
语义节点的属性包括两部分,一部分是词汇自然属性,用于描述词语在自然语言中所代表的概念或意义。例如词语的词性,词的英文等。另一部分是词汇的领域专属属性,用于描述词语在专属领域中所代表的概念或意义。例如,可以设置关注指数属性(关注指数),用于表示词汇在该领域的关注程度,关注程度越高,则关注指数越高。语义节点属性定义如表1所示。
表1
Figure BDA0002100588640000051
如表1所示,词汇“偷窃”具有自然属性和领域专属属性,其中自然属性中,词性(Part-of-speech,Pos)的值为“v”,词汇对应的英文词为“steal”;领域专属属性中,词汇的关注指数为“8”,词汇的事件类型为“财产安全(Property security,PS)”。词汇“小偷”的自然属性中,词性的值为“n”,词汇对应的英文词为“thief”;领域专属属性中,词汇的关注指数为“6”,词汇的事件类型为“财产安全”。
所述领域专属属性可以设置。
所述领域语义关联关系为自定义的关联关系。所述对待分析文本进行处理得到语句集合和文本词汇集合,包括:
对待分析文本进行预处理,得到预处理后的文本;
对所述预处理后的文本进行分句,得到语句集合;
对所述语句集合进行分词,得到文本词汇集合。
所述预处理包括去噪和/或去重等操作。
所述确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,包括:
查询文本词汇集合中各词汇在领域语义关系图中的关注指数;
若该词汇存在于领域语义关系图中,则返回该词汇的关注指数;
若该词汇不存在于领域语义关系图中,则返回数值0;
根据得到的关注指数确定文本词汇得分。
语义关系是用于描述两个语义节点之间存在的语义关联关系。根据领域关注内容,自定义语义关联关系(领域语义关联关系)类型。例如在高校学生舆情领域的语义关联关系包括主动关系,被动关系,同等关系,上下位关系,施事关系,受事关系等。
语义关系边由两个语义节点和它们之间的语义关系构成,语义关系边采用三元组方式存储,具体结构为(语义节点1,语义节点2,语义关系R),这里的语义关系是有向关系,方向为语义节点1到语义节点2,表示的含义是“语义节点1”和“语义节点2”有“语义关系R”。
如图2所示,以财产安全事件“小偷偷窃商店”为例,结合领域背景知识,定义领域语义关系。“小偷偷窃商店”事件包含三个实体词汇和一个事件词汇。实体词汇为“小偷”,“商店”,“店主”;事件词汇为“偷窃”。如图2所示,事件中的实体与实体,实体与事件存在语义关联关系。其中包含的语义关系,如表2所示。
表2
关系起始项 关系终止项 语义关系
小偷 偷窃 主动关系
偷窃 商店 动宾关系
商店 店主 属于关系
店主 商店 拥有关系
店主 偷窃 被动关系
如表2所示,领域要素间存在着一种或多种语义关联关系。例如:“小偷”与“偷窃”存在一种语义关系,即“主动关系”;“店主”和“商店”存在多种语义关系,分别表示“店主拥有商店”和“商店属于店主”的语义关系。
所述关注指数为自定义的数值。
所述根据语句集合和领域语义关系图,确定词汇联合得分,包括:
对语句集合中的每个语句进行依存句法分析,得到依存句法关系树;
根据依存句法树中涉及到的词汇,确定词汇的联合得分。
按照以下公式确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分:
Figure BDA0002100588640000071
其中Wi为文本词汇集合中包含的各词汇;G(Wi)为该词汇在领域语义关系图中的关注指数;Ni为该词汇在待分析文本中总共出现的有效次数;Sw为文本词汇得分。
由于在领域语义关系图中,词汇都具有领域专属属性,其中包含关注指数属性。而且,每个词汇的关注指数与该词汇的关注程度成正比,关注程度越高,则关注指数就越高,所以可以通过设置关注指数,计算文本词汇得分。
由公式
Figure BDA0002100588640000072
可知,如果文本具备较高的词汇关注指数,原因可以分为两种情况:第一种为文本中出现了至少一个关注程度较高的词汇,此类词汇的出现,可以直接赋予文本较高的词汇得分,让文本词汇得分较高。第二种为文本中出现了一定数量的关注词汇,此类词汇可以不具备较高的关注指数,但积累到一定数量时,此时文本词汇得分也会较高。
按照以下公式确定词汇联合得分:
Figure BDA0002100588640000073
Figure BDA0002100588640000074
其中Wi和Wj为依存关系树中的两个词汇;E为无理数;L(Wi,Wj)为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,L(Wi,Wj)的值为正无穷大;G(Wi)为词汇Wi的关注指数;G(Wj)为词汇Wj的关注指数;Sr(Wi,Wj)为词汇联合得分。
语句是构成文本的基本单元,而语句是由词汇按照一定的句法关系构成的。其中语句中的主谓关系、动宾关系等涉及到的词汇是文本分析中的重点分析对象。通过对这些词汇进行词汇联合得分计算,在一定程度上可以对文本实现相关领域的语义分析,为文本的领域分析提供重要参加价值。
在领域语义关系图中,语义关联路径长度反应了两个词汇的领域相关性,相关性越高,路径长度越短,领域关注度越高。
通过计算,可以得到两个词汇之间的词汇联合得分Sr。由公式
Figure BDA0002100588640000081
Figure BDA0002100588640000082
可知,词汇联合得分与词汇关注指数,语义关联路径长度相关。
当词汇节点间不存在语义关联路径时,分为两种情况,第一种为存在至少一个词汇不属于领域语义关系图时,此时词汇间不存在领域语义关联,语义关联路径长度L(Wi,Wj)的值为正无穷。第二种为两个词汇均存在于领域语义关系图中,但该词汇所在的语义节点之间不存在一条路径使两个节点连通。此时词汇节点间的语义关联路径长度L(Wi,Wj)的值为正无穷,由公式可知,此时,两个词汇的词汇联合得分为0。
当词汇节点间存在语义关联路径时,则说明两个词汇均存在于领域语义关系图中,且存在至少一条路径使语义节点相互连通。此时,可通过词汇关注指数和词汇间语义关联路径长度计算得到词汇联动得分。当词汇间出现多条语义关联路径时,L(Wi,Wj)的值取最短的语义关联路径长度。由公式
Figure BDA0002100588640000083
Figure BDA0002100588640000084
可知,词汇联合得分与词汇关注指数成正比,与词汇语义关联路径长度成反比。词汇关注指数越高,词汇间语义关联路径长度越短,词汇联合得分越高。
按照以下公式确定领域总得分:Ss=A*SW+B*∑Sr(Wi,Wj),其中A和B分别对应SW和Sr的权重系数,A与B之和为1;SW为文本词汇得分;Sr(Wi,Wj)为词汇联合得分。权重系数越高,表明该部分得分对文本领域总得分的影响越大。由公式Ss=A*SW+B*∑Sr(Wi,Wj)可知,文本领域总得分与文本词汇得分,词汇联合得分成正相关关系。
文本是由语句构成的,语句是由词汇及其句法关系构成的。通过对文本词汇分析,词汇关联分析,从一定程度上可以对文本实现相关领域的语义分析。
所述领域专属属性为自定义的属性,包括关注指数和类型。
在所述根据所述领域总得分确定所述待分析文本所属的文本领域之前,还能够对领域总得分进行归一化处理,或对领域总得分进行数据标准化处理等。
以对领域总得分进行归一化处理为例,由于网络文本数据存在长度不一,语句数量不确定的问题。导致不同文本最终得分存在较大的差异。因此,在对短文本进一步分析之前,可以对文本领域总得分进行归一化处理,将文本总得分控制在[0,1]区间。非线性回归方法是解决数据差异较大的合理方法,利用公式Y=1-e(-s/100)将结果转换到0至1之间的数值,其中S为领域总得分,Y为得到的归一化得分,e为无理数。
文本中包含的词汇(在领域语义关系图中的词汇)数量越多,包含的词汇领域关注指数越高,词汇(在领域语义关系图中的词汇)间存在的语义关联路径越短,此时文本的领域归一化得分越高。在实际应用场景中,可以设置合理的判别阈值,当文本归一化得分大于判别阈值时,认为文本内容与领域相关,可以标识出来。
如图3所示,领域语义关系图的构建(生成)主要包括:文本采集,文本处理,语义节点,语义关系。
数据源选取,选择从实际的应用场景出发,选择与领域相关网络平台,将这些网络平台的文本数据,用作领域语义关系图的构建的语料。例如,构建高校学生舆情领域语义关系图,可以选择高校相关论坛和社区进行文本数据收集。
文本采集,根据对应的网络平台数据源,设计具有针对的网络爬虫方案和策略,尽可能多的获取领域相关文本数据。
文本处理,将爬虫模块获取的数据进行去噪去重等操作,去除其中的非文本数据,筛选出其中的文本数据。并针对文本数据,进行人工筛选,进一步筛选出与领域相关的文本数据,作为构建领域语义关系图的语料。
语义节点,利用分词工具,对领域文本数据进行分词操作,将文本数据拆分成词汇集合,从中提炼出于与领域相关的词汇,作为领域要素,结合自定义的领域专属属性,生成具有领域背景的语义节点。
语义关系,针对提炼出的领域词汇,结合自定义的领域语义关联关系,自动生成三元组结构的语义关系,格式为:语义节点1,语义节点2和语义关系R。
所述领域语义关联关系包括:主谓关系、动宾关系、动补关系、定中关系、状中关系和并列关系等。
所述领域语义关联关系还能够根据需要进行定义设置,如自己定义一种主动关系和/或被动关系。
所述领域语义关联关系能够根据需要,从之前定义好的语义关系汇总中选择合适的领域语义关联关系。
领域语义关系图,结合语义节点和语义关系,将领域要素作为语义关系图的节点,将领域要素之间语义关系作为节点之间的边,自动生成一张与领域相关的语义关系图,记为领域语义关系图。
所述领域语义关系图包括:语义关系边的数据集合、语义关系的数据集合和语义节点的数据集合。
所述领域语义关系图能够扩展。扩展方法包括:针对新发现的文本数据进行处理,提炼出其中新出现的领域词汇;根据领域先验知识,生成领域语义节点;根据语义关系规则,生成与其他词汇的语义关联关系,作为语义关系边;将最新生成的语义节点和语义关系边加入到领域语义关系图中。
关注指数用于表示词汇在对应领域中的关注程度,关注指数从1到10,关注指数越高,表示该词汇受关注程度越高。词汇Wi的关注指数记为G(Wi)。当词汇不存在与领域语义关系图中时,此时词汇的关注指数为0.
语义关联用于表示在领域语义关系图中,如果从结点Ei到Ej有路径存在,则称结点Ei和Ej是语义关联的。
语义关联路径用于表示,在领域语义关系图中,两个语义关联的结点之间的路径称为它们的语义关联路径。
语义关联路径长度表示,在领域语义关系图中,如果结点Ei和Ej是语义关联的,对于它们之间的某一条语义关联路径P,将P上弧的数量称为它们的语义关联路径长度,记为L(Wi,Wj)。语义关联路径长度反应了两个词汇的领域相关性,相关性越高,路径长度越短。所述语义关联路径长度可以设置。
通过自定义领域语义关联关系、权重系数和领域专属属性等,能够根据需要,针对特殊领域,生成领域语义关系图。根据生成的领域语义关系图确定待分析文本的领域总得分。还能够根据需要,将待分析文本与多个领域语义关系图进行分析,分别计算待分析文本与多个领域语义关系图之间的各领域总得分。
以高校学生舆情领域为实验对象,采集网络平台中的文本。所述网络平台包括各大高校论坛、主流网络社交平台和主流新闻网站等。其中高校论坛包含水木清华、北大未名和向北航行等。网络社交平台包括微博、知乎和贴吧等。截止目前为止,总计开发了86个爬虫模块,总计采集文本数据478303条,提炼出与高校学生舆情相关的文本数据81427条。
根据采集到的文本数据,构建了一张包含5248个节点,包含16488条边的领域语义关系图。如图4所示,为高校学生舆情领域语义关系图的局部截图。
为保证实验的可信性、有效性和客观性,采用真实网络平台作为实验数据采集源。数据采集源主要包括高校论坛和社交媒体两部分,其中高校论坛包括水木清华、北大未名、向北航行和蛋蛋网等;社交媒体包括微博和知乎等。采用网络爬虫技术采集以上数据源的文本数据作为测试数据集,共计40000条。人工标记测试数据集中的高校舆情领域文本。将标记后文本数据集分为两部分,训练集和测试集。训练集和测试集文本情况如表3所示。
表3
数据集 领域相关文本数量 文本总数量
训练集 7350 20000
测试集 6840 20000
如表3所示,训练数据集中的数据共计20000条,其中与高校舆情领域相关的文本数据共计7350条;测试数据集中的数据共计20000条,其中与高校舆情领域相关的文本数据共计6840条。
将实验测试数据集作为数据输入源,通过设置不同的判别阈值对数据集中的文本进行分析,将高于判别阈值的文本判别为与领域相关文本,将低于判别阈值的文本判别为与领域无关的文本。
使用P、R、F值作为文本准确度的判别标准,用于确定判别阈值。其中P为准确率,R为查全率。准确率=分类正确的文本数量/正确类别文本总数量;查全率=分类正确的文本数量/该类文本总数量。F值是准确率P和查全率R的谐波平均值,作为评估绩效的重要指标,它代表了模型的准确度,其中结果为1的模型被认为是最好的模型。
为了验证有效性,在当前诸多学者的不同方法实现的短文本分类方法研究中,选择新近的短文本分类方法作为对比方法。
采用传统机器学习-支持向量机(Support Vector Machine,SVM)方法、朴素贝叶斯(Naive Bayesian,NB)方法和基于深度学习卷积神经网络(Convolutional NeuralNetworks,CNN)方法作为对比,采用表3中标记的训练集对以上方法进行训练。最终使用准确率P,查全率R和F值作为评价指标。基于领域语义关系图的文本分析模型的判别阈值设为0.14。结果对比如表4所示。
表4
测试方法 P R F
支持向量机SVM 78.23% 72.35% 75.18%
朴素贝叶斯NB 76.36% 79.24% 77.77%
卷积神经网络CNN 80.64% 78.35% 79.47%
领域语义关系图的文本领域确定方法 84.32% 83.12% 83.74%
如表4所示,相对于传统机器学习方法和深度学习方法,本申请实施例的方法在准确率P,查全率R和准确度(F值)方面都有一定程度的提升。其中,相对于传统机器学习SVM方法,本申请实施例的方法的F值提升了8.6%;相比机器学习朴素贝叶斯(NB)方法,本申请实施例的方法的F值提升了6%;与深度学习卷积神经网络CNN方法相比,本申请实施例的方法的F值提升了约4%。
本申请实施例的方法能够达到秒级级别,面向以短文本为主的网络社区文本数据,可以满足实时处理的基本需求。
根据本申请的实施方式,还提出一种基于领域语义关系图的文本领域确定系统,如图5所示,包括:
文本分析模块101,用于对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域;
领域语义关系图构建模块102,用于根据从网络平台中采集的文本生成领域语义关系图。
所述文本分析模块还用于存储采集到的文本、语句集合、文本词汇集合和计算过程中得到的所有数据。
所述文本分析模块能够根据设定,分别计算待分析文本与多个领域语义关系图之间的各领域总得分。
所述文本分析模块还能够根据设定对领域总得分进行归一化处理,或对领域总得分进行数据标准化处理等。
所述领域语义关系图构建模块还用于对生成好的领域语义关系图进行扩展。通过针对新发现的文本数据进行处理,提炼出其中新出现的领域词汇;根据领域先验知识,生成领域语义节点;根据语义关系规则,生成与其他词汇的语义关联关系,作为语义关系边;将最新生成的语义节点和语义关系边加入到领域语义关系图中。
所述领域语义关系图构建模块还用于保存生成好的领域语义关系图。
本申请实施例的方法中,根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要,针对特殊领域对文本进行分析。领域语义关联关系、权重系数和领域专属属性等能够根据需要进行定义设置,灵活性高,针对性强,能够有效提高文本领域的准确率。并且可以对生成好的领域语义关系图进行扩展,还能够满足实时处理的需求。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于领域语义关系图的文本领域确定方法,其特征在于,包括:
对待分析文本进行处理得到语句集合和文本词汇集合;
确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的,在领域语义关系图中,语义关联路径长度反应了两个词汇的领域相关性,相关性越高,路径长度越短,领域关注度越高;
根据语句集合和领域语义关系图,确定词汇联合得分;按照以下公式确定词汇联合得分:
Figure FDA0002683805710000011
其中Wi和Wj为依存关系树中的两个词汇;L(Wi,Wj)为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,L(Wi,Wj)的值为正无穷大;G(Wi)为词汇Wi的关注指数;G(Wj)为词汇Wj的关注指数;Sr(Wi,Wj)为词汇联合得分,E为无理数;
根据词汇联合得分和文本词汇得分确定领域总得分;
根据所述领域总得分确定所述待分析文本所属的文本领域。
2.如权利要求1所述的方法,其特征在于,根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:
采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;
筛选文本数据,得到领域文本数据;
对领域文本数据进行分词,得到领域词汇集合;
提取领域词汇集合中的多个词汇;
根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;
针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;
根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。
3.如权利要求1所述的方法,其特征在于,所述对待分析文本进行处理得到语句集合和文本词汇集合,包括:
对待分析文本进行预处理,得到预处理后的文本;
对所述预处理后的文本进行分句,得到语句集合;
对所述语句集合进行分词,得到文本词汇集合。
4.如权利要求1所述的方法,其特征在于,所述确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,包括:
查询文本词汇集合中各词汇在领域语义关系图中的关注指数;
若该词汇存在于领域语义关系图中,则返回该词汇的关注指数;
若该词汇不存在于领域语义关系图中,则返回数值0;
根据得到的关注指数确定文本词汇得分。
5.如权利要求1所述的方法,其特征在于,所述根据语句集合和领域语义关系图,确定词汇联合得分,包括:
对语句集合中的每个语句进行依存句法分析,得到依存句法关系树;
根据依存句法树中涉及到的词汇,确定词汇的联合得分。
6.如权利要求1所述的方法,其特征在于,按照以下公式确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分:
Figure FDA0002683805710000021
其中Wi为文本词汇集合中包含的各词汇;G(Wi)为该词汇在领域语义关系图中的关注指数;Ni为该词汇在待分析文本中总共出现的有效次数;Sw为文本词汇得分。
7.如权利要求1所述的方法,其特征在于,按照以下公式确定领域总得分:Ss=A*SW+B*∑Sr(Wi,Wj),其中A和B分别对应SW和Sr的权重系数;SW为文本词汇得分;Sr(Wi,Wj)为词汇联合得分。
8.如权利要求2所述的方法,其特征在于,所述领域专属属性为自定义的属性,包括关注指数和类型。
9.一种基于领域语义关系图的文本领域确定系统,其特征在于,包括:
文本分析模块,用于对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的,在领域语义关系图中,语义关联路径长度反应了两个词汇的领域相关性,相关性越高,路径长度越短,领域关注度越高;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域;按照以下公式确定词汇联合得分:
Figure FDA0002683805710000031
其中Wi和Wj为依存关系树中的两个词汇;L(Wi,Wj)为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,L(Wi,Wj)的值为正无穷大;G(Wi)为词汇Wi的关注指数;G(Wj)为词汇Wj的关注指数;Sr(Wi,Wj)为词汇联合得分,E为无理数;领域语义关系图构建模块,用于根据从网络平台中采集的文本生成领域语义关系图。
CN201910533898.1A 2019-06-19 2019-06-19 一种基于领域语义关系图的文本领域确定方法与系统 Active CN110413989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910533898.1A CN110413989B (zh) 2019-06-19 2019-06-19 一种基于领域语义关系图的文本领域确定方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910533898.1A CN110413989B (zh) 2019-06-19 2019-06-19 一种基于领域语义关系图的文本领域确定方法与系统

Publications (2)

Publication Number Publication Date
CN110413989A CN110413989A (zh) 2019-11-05
CN110413989B true CN110413989B (zh) 2020-11-20

Family

ID=68359460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910533898.1A Active CN110413989B (zh) 2019-06-19 2019-06-19 一种基于领域语义关系图的文本领域确定方法与系统

Country Status (1)

Country Link
CN (1) CN110413989B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852059B (zh) * 2019-11-14 2023-08-29 中国农业科学院农业信息研究所 一种基于分组的文档内容差异对比可视化分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645083A (zh) * 2009-01-16 2010-02-10 中国科学院声学研究所 一种基于概念符号的文本领域的获取系统及方法
CN102332009A (zh) * 2011-09-02 2012-01-25 北京大学 一种大规模数据集上的关系查询方法
CN105005554A (zh) * 2015-06-30 2015-10-28 北京信息科技大学 一种词汇语义相关度的计算方法
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508828A (zh) * 2011-09-16 2012-06-20 浙江大学 一种基于多代理路由的图路径关系发现方法
US20170161372A1 (en) * 2015-12-04 2017-06-08 Codeq Llc Method and system for summarizing emails and extracting tasks
CN107967494B (zh) * 2017-12-20 2020-12-11 华东理工大学 一种基于视觉语义关系图的图像区域标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645083A (zh) * 2009-01-16 2010-02-10 中国科学院声学研究所 一种基于概念符号的文本领域的获取系统及方法
CN102332009A (zh) * 2011-09-02 2012-01-25 北京大学 一种大规模数据集上的关系查询方法
CN105005554A (zh) * 2015-06-30 2015-10-28 北京信息科技大学 一种词汇语义相关度的计算方法
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
part of speech tagger for sinhala language;jayaweera 等;《百度学术》;20111231;全文 *
基于表示学习的信息抽取技术研究;冯骁骋;《中国博士学位论文全文数据库》;20190115;全文 *
基于语义网络的类自然语言的知识获取与转换的研究;张旭洁;《中国优秀硕士学位论文全文数据库》;20061215;全文 *

Also Published As

Publication number Publication date
CN110413989A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
Stamatatos et al. Clustering by authorship within and across documents
Cetto et al. Graphene: Semantically-linked propositions in open information extraction
Thakkar et al. Graph-based algorithms for text summarization
EP3086239A1 (en) Scenario generation device and computer program therefor
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
Hou et al. A big data application to predict depression in the university based on the reading habits
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
Bellot et al. INEX Tweet Contextualization task: Evaluation, results and lesson learned
CN110222172B (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN103646099A (zh) 一种基于多层图的论文推荐方法
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
Shekhawat Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach
Reddy et al. N-gram approach for gender prediction
Zhong et al. Goal driven discovery of distributional differences via language descriptions
CN110413989B (zh) 一种基于领域语义关系图的文本领域确定方法与系统
Piper et al. Longitudinal study of a website for assessing American Presidential candidates and decision making of potential election irregularities detection
Belbachir et al. Using language models to improve opinion detection
Conrad et al. Query-based opinion summarization for legal blog entries
Hajare et al. A machine learning pipeline to examine political bias with congressional speeches
Dritsa et al. A greek parliament proceedings dataset for computational linguistics and political analysis
Krause et al. Redundancy localization for the conversationalization of unstructured responses
Waldis et al. Concept recognition with convolutional neural networks to optimize keyphrase extraction
Ghorai An Information Retrieval System for FIRE 2016 Microblog Track.
Koniaris et al. Diversifying microblog posts
Kumar et al. Gated Recursive and Sequential Deep Hierarchical Encoding for Detecting Incongruent News Articles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant