CN107193802A - 一种智能领域概念自动获取系统 - Google Patents

一种智能领域概念自动获取系统 Download PDF

Info

Publication number
CN107193802A
CN107193802A CN201710380748.2A CN201710380748A CN107193802A CN 107193802 A CN107193802 A CN 107193802A CN 201710380748 A CN201710380748 A CN 201710380748A CN 107193802 A CN107193802 A CN 107193802A
Authority
CN
China
Prior art keywords
mrow
msub
word
field concept
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710380748.2A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Phase Resistant Intelligent Technology Co Ltd
Original Assignee
Shanghai Phase Resistant Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Phase Resistant Intelligent Technology Co Ltd filed Critical Shanghai Phase Resistant Intelligent Technology Co Ltd
Priority to CN201710380748.2A priority Critical patent/CN107193802A/zh
Publication of CN107193802A publication Critical patent/CN107193802A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种智能领域概念自动获取系统,包括前台信息输入子系统和后台领域概念获取子系统,所述前台信息输入子系统用于输入用户想要了解的领域,所述后台领域概念获取子系统用于从语料库中获取相应的领域概念。本发明的有益效果为:实现了领域概念的准确获取。

Description

一种智能领域概念自动获取系统
技术领域
本发明涉及领域概念技术领域,具体涉及一种智能领域概念自动获取系统。
背景技术
领域概念是指在特定领域中以较高的频率出现且能代表该领域特征的词。领域概念自动获取的关键是候选概念的获取和对候选概念的评价方法,因为只有候选概念的获取方法和评价方法是有效的,才可能得到准确的领域概念。另外,领域概念不仅包括单个的词语,也包含一些复合词语,即由多个词语组成的词串。因此进行领域概念获取前要先提取语料库中的复合词语,并且候选概念的判定条件也要针对复合词语做相应的改变,以免在选择候选概念时将复合词语领域概念过滤掉。此外,在获取领域概念时不可避免地会存在语义相近的概念,对各个领域概念分别统计其频数将会导致其统计结果偏低,从而导致某些领域概念被遗漏,因此在概念自动获取过程中还要考虑语义相似的领域概念的获取。
现有的领域概念获取系统存在以下缺陷:第一,并没有考虑复合词语领域概念;第二,并没有考虑领域概念的语义相似。
发明内容
针对上述问题,本发明旨在提供一种智能领域概念自动获取系统。
本发明的目的采用以下技术方案来实现:
提供了一种智能领域概念自动获取系统,包括前台信息输入子系统和后台领域概念获取子系统,所述前台信息输入子系统用于输入用户想要了解的领域,所述后台领域概念获取子系统用于从语料库中获取相应的领域概念。
本发明的有益效果为:实现了领域概念的准确获取。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明的结构示意图;
附图标记:
前台信息输入子系统1、后台领域概念获取子系统2。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种智能领域概念自动获取系统,包括前台信息输入子系统1和后台领域概念获取子系统2,所述前台信息输入子系统1用于输入用户想要了解的领域,所述后台领域概念获取子系统2用于从语料库中获取相应的领域概念。
本实施例实现了领域概念的准确获取。
优选的,所述前台信息输入子系统1包括语言输入模块和文字输入模块,所述语言输入模块用于识别输入的语言信息,所述文字输入模块用于识别输入的文字信息,所述语言输入模块包括语言信息采集单元、语言信息存储单元、语言信息传输单元、声音文字转换单元和文字识别单元,所述语言信息采集单元用于采集语言信息,所述语言信息存储单元用于存储采集到的语言信息,所述语言信息传输单元用于将存储的语言信息传输至声音文字转换单元,所述声音文字转换单元用于将声音信息转化为文字信息,所述文字识别单元用于对文字信息进行识别。
本优选实施例实现了信息的语言输入。
优选的,所述文字输入模块包括文字信息输入单元、文字信息存储单元、文字信息阅读单元、通信单元和文字信息识别单元,所述文字信息输入单元用于手动书写文字信息,所述文字信息存储单元用于存储写入的文字信息,所述文字信息阅读单元用于阅读存储的文字信息,所述通信单元用于将阅读出的文字信息传输至文字信息识别单元,所述文字信息识别单元用于对接收的文字信息进行识别。
本优选实施例实现了信息的手写输入。
所述后台领域概念获取子系统包括词语集合生成模块和领域概念获取模块,所述词语集合生成模块用于根据语料库生成词语集合,所述领域概念获取模块用于根据词语集合获取领域概念;
所述根据语料库生成词语集合具体为:
(1)对语料库以句为单位进行分词,去除停用词,生成词语集合W,从词语集合W中提取多元词组,得到候选词集合WL;
(2)若WL不为空,则取字符串w,其中,w∈WL,若w满足复合词语判定条件,则w是复合词语,加入复合词语集合CW=CW∪w;
(3)输出词语集合W=W∪CW。
所述复合词语判定条件具体为:
(1)设字符串w=s1s2…sn,s1,s2,…,sn为对其分词后得到的词语,用A表示s1,s2,…,sn的互信息指数:
式中,P(s1,s2,…,sn)为词语s1,s2,…,sn在语料库中共同出现的概率,P(s1)为词语s1出现的概率,P(s2)为词语s2出现的概率,…,P(sn)为词语sn出现的概率,其中, 其中,F(s1,s2,…,sn)为包含词语s1,s2,…,sn在的句子的数量,F(s1)为包含词语s1的句子的数量,F(s2)为包含词语s2的句子的数量,…,F(sn)为包含词语sn的句子的数量,F表示句子总数;
(2)对于给定的阈值A1,若满足A(s1,s2,…,sn)>A1,则确定w是复合词语。
本优选实施例在获取领域概念前,首先对语料库中的复合词语进行提取,将其加入领域概念候选词集合,防止在选取候选概念过程中将复合词语的领域概念筛选掉,克服了以往领域概念获取过程中没有考虑复合词语的缺陷,在复合词语的提取过程中,提出了全新的复合词语判定条件,获取了准确的复合词语集合。
优选的,所述根据词语集合获取领域概念具体为:
(1)预先从领域知识库中选取领域概念作为初始领域概念集合DC;
(2)对于词语集合W中的词语s,采用余弦相似度计算其语义相似度sim(s,DC),若满足sim(s,DC)>sim1,则将s加入领域概念集合中,得到一次更新的领域概念集合,并从W集合中移除,得到更新的词语集合,其中,sim1为给定阈值;
(3)从更新的词语集合中逐一选取词语s,若满足候选概念判定条件,则将s加入候选概念集合CC中;
(4)对候选概念集合CC中的每个候选概念s进行评价,获取评价值m,选取评价值最大的前EH个词语加入到一次更新的领域概念集合,得到最终的领域概念集合,其中EH∈[6,10]。
所述候选概念判定条件具体为:
(1)计算语料库中包含词语s的句子数量,句子数量等于组成这个词语的各个词语的句子数量之和:
式中,F(s)表示语料库中包含词语s的句子数量,n表示s包含的词语的个数,si表示s包含的第i个词语;
(2)计算语料库中词语s与初始领域概念集合中的任一领域概念共同出现的句子数量:
式中,F(s,DC)表示词语s与初始领域概念集合中的任一领域概念共同出现的句子数量,dc表示初始领域概念集合中的任一领域概念;
(3)计算词语s的候选值Z:
式中,Fmax(s,DC)表示词语s与初始领域概念集合中某一领域概念共同出现的句子数量的最大值;若Z>Z1,则词语s为候选概念,其中,Z1为设定阈值。
所述评价值m采用以下公式确定:
本优选实施例在获取领域概念的过程中,考虑了领域概念的语义相似,避免了采用统计方法漏掉语义相似的领域概念,获取的领域概念更为全面,在确定领域概念的过程中,首先确定候选概念,然后确定领域概念,获取的领域概念更为符合领域特征。
采用本发明智能领域概念自动获取系统对获取领域概念,当EH取不同值时,对领域概念获取准确性和领域概念获取时间进行统计,同未采用本发明相比,产生的有益效果如下表所示:
EH 领域概念获取准确性提高 领域概念获取时间减少
6 31% 32%
7 24% 27%
8 20% 25%
9 16% 20%
10 15% 18%
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (8)

1.一种智能领域概念自动获取系统,其特征在于,包括前台信息输入子系统和后台领域概念获取子系统,所述前台信息输入子系统用于输入用户想要了解的领域,所述后台领域概念获取子系统用于从语料库中获取相应的领域概念。
2.根据权利要求1所述的智能领域概念自动获取系统,其特征在于,所述前台信息输入子系统包括语言输入模块和文字输入模块,所述语言输入模块用于识别输入的语言信息,所述文字输入模块用于识别输入的文字信息,所述语言输入模块包括语言信息采集单元、语言信息存储单元、语言信息传输单元、声音文字转换单元和文字识别单元,所述语言信息采集单元用于采集语言信息,所述语言信息存储单元用于存储采集到的语言信息,所述语言信息传输单元用于将存储的语言信息传输至声音文字转换单元,所述声音文字转换单元用于将声音信息转化为文字信息,所述文字识别单元用于对文字信息进行识别。
3.根据权利要求2所述的智能领域概念自动获取系统,其特征在于,所述文字输入模块包括文字信息输入单元、文字信息存储单元、文字信息阅读单元、通信单元和文字信息识别单元,所述文字信息输入单元用于手动书写文字信息,所述文字信息存储单元用于存储写入的文字信息,所述文字信息阅读单元用于阅读存储的文字信息,所述通信单元用于将阅读出的文字信息传输至文字信息识别单元,所述文字信息识别单元用于对接收的文字信息进行识别。
4.根据权利要求3所述的智能领域概念自动获取系统,其特征在于,所述后台领域概念获取子系统包括词语集合生成模块和领域概念获取模块,所述词语集合生成模块用于根据语料库生成词语集合,所述领域概念获取模块用于根据词语集合获取领域概念;
所述根据语料库生成词语集合具体为:
(1)对语料库以句为单位进行分词,去除停用词,生成词语集合W,从词语集合W中提取多元词组,得到候选词集合WL;
(2)若WL不为空,则取字符串w,其中,w∈WL,若w满足复合词语判定条件,则w是复合词语,加入复合词语集合CW=CW∪w;
(3)输出词语集合W=W∪CW。
5.根据权利要求4所述的智能领域概念自动获取系统,其特征在于,所述复合词语判定条件具体为:
(1)设字符串w=s1s2…sn,s1,s2,…,sn为对其分词后得到的词语,用A表示s1,s2,…,sn的互信息指数:
<mrow> <mi>A</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>s</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>s</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>...</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </msqrt> <mo>+</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>s</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>...</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
式中,P(s1,s2,…,sn)为词语s1,s2,…,sn在语料库中共同出现的概率,P(s1)为词语s1出现的概率,P(s2)为词语s2出现的概率,…,P(sn)为词语sn出现的概率,其中, 其中,F(s1,s2,…,sn)为包含词语s1,s2,…,sn在的句子的数量,F(s1)为包含词语s1的句子的数量,F(s2)为包含词语s2的句子的数量,…,F(sn)为包含词语sn的句子的数量,F表示句子总数;
(2)对于给定的阈值A1,若满足A(s1,s2,…,sn)>A1,则确定w是复合词语。
6.根据权利要求5所述的智能领域概念自动获取系统,其特征在于,所述根据词语集合获取领域概念具体为:
(1)预先从领域知识库中选取领域概念作为初始领域概念集合DC;
(2)对于词语集合W中的词语s,采用余弦相似度计算其语义相似度sim(s,DC),若满足sim(s,DC)>sim1,则将s加入领域概念集合中,得到一次更新的领域概念集合,并从W集合中移除,得到更新的词语集合,其中,sim1为给定阈值;
(3)从更新的词语集合中逐一选取词语s,若满足候选概念判定条件,则将s加入候选概念集合CC中;
(4)对候选概念集合CC中的每个候选概念s进行评价,获取评价值m,选取评价值最大的前EH个词语加入到一次更新的领域概念集合,得到最终的领域概念集合,其中EH∈[6,10]。
7.根据权利要求6所述的智能领域概念自动获取系统,其特征在于,所述候选概念判定条件具体为:
(1)计算语料库中包含词语s的句子数量,句子数量等于组成这个词语的各个词语的句子数量之和:
<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
式中,F(s)表示语料库中包含词语s的句子数量,n表示s包含的词语的个数,si表示s包含的第i个词语;
(2)计算语料库中词语s与初始领域概念集合中的任一领域概念共同出现的句子数量:
<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>D</mi> <mi>C</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>d</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow>
式中,F(s,DC)表示词语s与初始领域概念集合中的任一领域概念共同出现的句子数量,dc表示初始领域概念集合中的任一领域概念;
(3)计算词语s的候选值Z:
<mrow> <mi>Z</mi> <mo>=</mo> <mroot> <mrow> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>F</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>D</mi> <mi>C</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> <mo>+</mo> <mn>2</mn> </mrow> <mn>3</mn> </mroot> </mrow>
式中,Fmax(s,DC)表示词语s与初始领域概念集合中某一领域概念共同出现的句子数量的最大值;若Z>Z1,则词语s为候选概念,其中,Z1为设定阈值。
8.根据权利要求7所述的智能领域概念自动获取系统,其特征在于,所述评价值m采用以下公式确定:
CN201710380748.2A 2017-05-25 2017-05-25 一种智能领域概念自动获取系统 Withdrawn CN107193802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710380748.2A CN107193802A (zh) 2017-05-25 2017-05-25 一种智能领域概念自动获取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710380748.2A CN107193802A (zh) 2017-05-25 2017-05-25 一种智能领域概念自动获取系统

Publications (1)

Publication Number Publication Date
CN107193802A true CN107193802A (zh) 2017-09-22

Family

ID=59875494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710380748.2A Withdrawn CN107193802A (zh) 2017-05-25 2017-05-25 一种智能领域概念自动获取系统

Country Status (1)

Country Link
CN (1) CN107193802A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894979A (zh) * 2017-11-21 2018-04-10 北京百度网讯科技有限公司 用于语义挖掘的复合词处理方法、装置及其设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210411A1 (en) * 2008-02-15 2009-08-20 Oki Electric Industry Co., Ltd. Information Retrieving System
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210411A1 (en) * 2008-02-15 2009-08-20 Oki Electric Industry Co., Ltd. Information Retrieving System
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨月华: "基于领域知识模型的突发事件智能信息检索系统研究", 《中国博士学位论文全文数据库(电子期刊)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894979A (zh) * 2017-11-21 2018-04-10 北京百度网讯科技有限公司 用于语义挖掘的复合词处理方法、装置及其设备
CN107894979B (zh) * 2017-11-21 2021-09-17 北京百度网讯科技有限公司 用于语义挖掘的复合词处理方法、装置及其设备

Similar Documents

Publication Publication Date Title
CN108509425B (zh) 一种基于新颖度的中文新词发现方法
CN103885934B (zh) 一种专利文献关键短语自动提取方法
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN103971677B (zh) 一种声学语言模型训练方法和装置
CN110717031A (zh) 一种智能会议纪要生成方法和系统
CN108733816B (zh) 一种微博突发事件检测方法
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN111078780A (zh) 一种ai优化数据治理的方法
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN103744905A (zh) 垃圾邮件判定方法和装置
CN103207905A (zh) 一种基于目标文本的计算文本相似度的方法
CN105005590B (zh) 一种信息媒介的专题阶段性摘要的生成方法
CN110705292B (zh) 一种基于知识库和深度学习的实体名称提取方法
CN103425777A (zh) 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN101404033A (zh) 本体层级结构的自动生成方法及系统
CN113268982B (zh) 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质
CN106503079A (zh) 一种日志管理方法及系统
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN103116573A (zh) 一种基于词汇注释的领域词典自动扩充方法
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN115168345A (zh) 数据库分级分类方法、系统、装置及存储介质
CN105653704A (zh) 自动摘要生成方法及装置
CN107193802A (zh) 一种智能领域概念自动获取系统
CN102722526A (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN113240322A (zh) 气候风险披露质量方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20170921

Address after: Xinhua Street, Huadu District, Guangdong city of Guangzhou province 510000 Tian Mei Cun Tian Mei Xin Cun from No. 87

Applicant after: Guangzhou Rui LAN embroidery Trading Co., Ltd.

Address before: 200000, 556, 5, 2265 Willow Road, Shanghai, Putuo District

Applicant before: Shanghai phase resistant Intelligent Technology Co., Ltd.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170922

WW01 Invention patent application withdrawn after publication