CN107193802A

CN107193802A - 一种智能领域概念自动获取系统

Info

Publication number: CN107193802A
Application number: CN201710380748.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Phase Resistant Intelligent Technology Co Ltd
Current assignee: Shanghai Phase Resistant Intelligent Technology Co Ltd
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2017-09-22

Abstract

本发明提供了一种智能领域概念自动获取系统，包括前台信息输入子系统和后台领域概念获取子系统，所述前台信息输入子系统用于输入用户想要了解的领域，所述后台领域概念获取子系统用于从语料库中获取相应的领域概念。本发明的有益效果为：实现了领域概念的准确获取。

Description

一种智能领域概念自动获取系统

技术领域

本发明涉及领域概念技术领域，具体涉及一种智能领域概念自动获取系统。

背景技术

领域概念是指在特定领域中以较高的频率出现且能代表该领域特征的词。领域概念自动获取的关键是候选概念的获取和对候选概念的评价方法，因为只有候选概念的获取方法和评价方法是有效的，才可能得到准确的领域概念。另外，领域概念不仅包括单个的词语，也包含一些复合词语，即由多个词语组成的词串。因此进行领域概念获取前要先提取语料库中的复合词语，并且候选概念的判定条件也要针对复合词语做相应的改变，以免在选择候选概念时将复合词语领域概念过滤掉。此外，在获取领域概念时不可避免地会存在语义相近的概念，对各个领域概念分别统计其频数将会导致其统计结果偏低，从而导致某些领域概念被遗漏，因此在概念自动获取过程中还要考虑语义相似的领域概念的获取。

现有的领域概念获取系统存在以下缺陷：第一，并没有考虑复合词语领域概念；第二，并没有考虑领域概念的语义相似。

发明内容

针对上述问题，本发明旨在提供一种智能领域概念自动获取系统。

本发明的目的采用以下技术方案来实现：

提供了一种智能领域概念自动获取系统，包括前台信息输入子系统和后台领域概念获取子系统，所述前台信息输入子系统用于输入用户想要了解的领域，所述后台领域概念获取子系统用于从语料库中获取相应的领域概念。

本发明的有益效果为：实现了领域概念的准确获取。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明的结构示意图；

附图标记：

前台信息输入子系统1、后台领域概念获取子系统2。

具体实施方式

结合以下实施例对本发明作进一步描述。

参见图1，本实施例的一种智能领域概念自动获取系统，包括前台信息输入子系统1和后台领域概念获取子系统2，所述前台信息输入子系统1用于输入用户想要了解的领域，所述后台领域概念获取子系统2用于从语料库中获取相应的领域概念。

本实施例实现了领域概念的准确获取。

优选的，所述前台信息输入子系统1包括语言输入模块和文字输入模块，所述语言输入模块用于识别输入的语言信息，所述文字输入模块用于识别输入的文字信息，所述语言输入模块包括语言信息采集单元、语言信息存储单元、语言信息传输单元、声音文字转换单元和文字识别单元，所述语言信息采集单元用于采集语言信息，所述语言信息存储单元用于存储采集到的语言信息，所述语言信息传输单元用于将存储的语言信息传输至声音文字转换单元，所述声音文字转换单元用于将声音信息转化为文字信息，所述文字识别单元用于对文字信息进行识别。

本优选实施例实现了信息的语言输入。

优选的，所述文字输入模块包括文字信息输入单元、文字信息存储单元、文字信息阅读单元、通信单元和文字信息识别单元，所述文字信息输入单元用于手动书写文字信息，所述文字信息存储单元用于存储写入的文字信息，所述文字信息阅读单元用于阅读存储的文字信息，所述通信单元用于将阅读出的文字信息传输至文字信息识别单元，所述文字信息识别单元用于对接收的文字信息进行识别。

本优选实施例实现了信息的手写输入。

所述后台领域概念获取子系统包括词语集合生成模块和领域概念获取模块，所述词语集合生成模块用于根据语料库生成词语集合，所述领域概念获取模块用于根据词语集合获取领域概念；

所述根据语料库生成词语集合具体为：

(1)对语料库以句为单位进行分词，去除停用词，生成词语集合W，从词语集合W中提取多元词组，得到候选词集合WL；

(2)若WL不为空，则取字符串w，其中，w∈WL，若w满足复合词语判定条件，则w是复合词语，加入复合词语集合CW＝CW∪w；

(3)输出词语集合W＝W∪CW。

所述复合词语判定条件具体为：

(1)设字符串w＝s₁s₂…s_n，s₁,s₂,…,s_n为对其分词后得到的词语，用A表示s₁,s₂,…,s_n的互信息指数：

式中，P(s₁,s₂,…,s_n)为词语s₁,s₂,…,s_n在语料库中共同出现的概率，P(s₁)为词语s₁出现的概率，P(s₂)为词语s₂出现的概率，…，P(s_n)为词语s_n出现的概率，其中，其中，F(s₁,s₂,…,s_n)为包含词语s₁,s₂,…,s_n在的句子的数量，F(s₁)为包含词语s₁的句子的数量，F(s₂)为包含词语s₂的句子的数量，…，F(s_n)为包含词语s_n的句子的数量，F表示句子总数；

(2)对于给定的阈值A₁，若满足A(s₁,s₂,…,s_n)＞A₁，则确定w是复合词语。

本优选实施例在获取领域概念前，首先对语料库中的复合词语进行提取，将其加入领域概念候选词集合，防止在选取候选概念过程中将复合词语的领域概念筛选掉，克服了以往领域概念获取过程中没有考虑复合词语的缺陷，在复合词语的提取过程中，提出了全新的复合词语判定条件，获取了准确的复合词语集合。

优选的，所述根据词语集合获取领域概念具体为：

(1)预先从领域知识库中选取领域概念作为初始领域概念集合DC；

(2)对于词语集合W中的词语s，采用余弦相似度计算其语义相似度sim(s,DC)，若满足sim(s,DC)＞sim₁，则将s加入领域概念集合中，得到一次更新的领域概念集合，并从W集合中移除，得到更新的词语集合，其中，sim₁为给定阈值；

(3)从更新的词语集合中逐一选取词语s，若满足候选概念判定条件，则将s加入候选概念集合CC中；

(4)对候选概念集合CC中的每个候选概念s进行评价，获取评价值m，选取评价值最大的前EH个词语加入到一次更新的领域概念集合，得到最终的领域概念集合，其中EH∈[6,10]。

所述候选概念判定条件具体为：

(1)计算语料库中包含词语s的句子数量，句子数量等于组成这个词语的各个词语的句子数量之和：

式中，F(s)表示语料库中包含词语s的句子数量，n表示s包含的词语的个数，s_i表示s包含的第i个词语；

(2)计算语料库中词语s与初始领域概念集合中的任一领域概念共同出现的句子数量：

式中，F(s,DC)表示词语s与初始领域概念集合中的任一领域概念共同出现的句子数量，dc表示初始领域概念集合中的任一领域概念；

(3)计算词语s的候选值Z：

式中，F_max(s,DC)表示词语s与初始领域概念集合中某一领域概念共同出现的句子数量的最大值；若Z＞Z₁，则词语s为候选概念，其中，Z₁为设定阈值。

所述评价值m采用以下公式确定：

本优选实施例在获取领域概念的过程中，考虑了领域概念的语义相似，避免了采用统计方法漏掉语义相似的领域概念，获取的领域概念更为全面，在确定领域概念的过程中，首先确定候选概念，然后确定领域概念，获取的领域概念更为符合领域特征。

采用本发明智能领域概念自动获取系统对获取领域概念，当EH取不同值时，对领域概念获取准确性和领域概念获取时间进行统计，同未采用本发明相比，产生的有益效果如下表所示：

EH	领域概念获取准确性提高	领域概念获取时间减少
			6	31％	32％
7	24％	27％
			8	20％	25％
9	16％	20％
			10	15％	18％

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种智能领域概念自动获取系统，其特征在于，包括前台信息输入子系统和后台领域概念获取子系统，所述前台信息输入子系统用于输入用户想要了解的领域，所述后台领域概念获取子系统用于从语料库中获取相应的领域概念。

2.根据权利要求1所述的智能领域概念自动获取系统，其特征在于，所述前台信息输入子系统包括语言输入模块和文字输入模块，所述语言输入模块用于识别输入的语言信息，所述文字输入模块用于识别输入的文字信息，所述语言输入模块包括语言信息采集单元、语言信息存储单元、语言信息传输单元、声音文字转换单元和文字识别单元，所述语言信息采集单元用于采集语言信息，所述语言信息存储单元用于存储采集到的语言信息，所述语言信息传输单元用于将存储的语言信息传输至声音文字转换单元，所述声音文字转换单元用于将声音信息转化为文字信息，所述文字识别单元用于对文字信息进行识别。

3.根据权利要求2所述的智能领域概念自动获取系统，其特征在于，所述文字输入模块包括文字信息输入单元、文字信息存储单元、文字信息阅读单元、通信单元和文字信息识别单元，所述文字信息输入单元用于手动书写文字信息，所述文字信息存储单元用于存储写入的文字信息，所述文字信息阅读单元用于阅读存储的文字信息，所述通信单元用于将阅读出的文字信息传输至文字信息识别单元，所述文字信息识别单元用于对接收的文字信息进行识别。

4.根据权利要求3所述的智能领域概念自动获取系统，其特征在于，所述后台领域概念获取子系统包括词语集合生成模块和领域概念获取模块，所述词语集合生成模块用于根据语料库生成词语集合，所述领域概念获取模块用于根据词语集合获取领域概念；

所述根据语料库生成词语集合具体为：

(3)输出词语集合W＝W∪CW。

5.根据权利要求4所述的智能领域概念自动获取系统，其特征在于，所述复合词语判定条件具体为：

6.根据权利要求5所述的智能领域概念自动获取系统，其特征在于，所述根据词语集合获取领域概念具体为：

7.根据权利要求6所述的智能领域概念自动获取系统，其特征在于，所述候选概念判定条件具体为：

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>D</mi> <mi>C</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>d</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow>

(3)计算词语s的候选值Z：

8.根据权利要求7所述的智能领域概念自动获取系统，其特征在于，所述评价值m采用以下公式确定：