CN102693244A - 用于识别非结构化文本中的信息的方法和装置 - Google Patents

用于识别非结构化文本中的信息的方法和装置 Download PDF

Info

Publication number
CN102693244A
CN102693244A CN2011100773059A CN201110077305A CN102693244A CN 102693244 A CN102693244 A CN 102693244A CN 2011100773059 A CN2011100773059 A CN 2011100773059A CN 201110077305 A CN201110077305 A CN 201110077305A CN 102693244 A CN102693244 A CN 102693244A
Authority
CN
China
Prior art keywords
term
structured text
basic
speech
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100773059A
Other languages
English (en)
Other versions
CN102693244B (zh
Inventor
丰强泽
齐红威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Hall (Beijing) Polytron Technologies Inc
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201110077305.9A priority Critical patent/CN102693244B/zh
Publication of CN102693244A publication Critical patent/CN102693244A/zh
Application granted granted Critical
Publication of CN102693244B publication Critical patent/CN102693244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出了一种用于识别非结构化文本中的信息的方法和装置,能够处理包含/不包含名称或同义词形式的非结构化文本。根据本发明的信息识别装置包括:基础术语提取单元,用于根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;术语提取规则生成单元,用于基于所提取出的基础术语和所述第一非结构化文本,生成术语提取规则;术语提取单元,用于基于所提取出的基础术语和所生成的术语提取规则,从第二非结构化文本中提取出新的术语;术语映射单元,用于将所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。

Description

用于识别非结构化文本中的信息的方法和装置
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种用于识别非结构化文本中的信息的方法和装置,不仅能够处理包含名称或同义词形式的非结构化文本,也能够处理不包含名称或同义词形式的非结构化文本。在本发明中,所要识别的非结构化文本中的信息可以是服务提供商提供的业务、产品提供商提供的产品、专利术语、和/或相关领域的关键词,这些信息可以存储在词典中。
背景技术
电信运营商、银行等服务提供商,通常需要处理大量的非结构化文本,例如客户的投诉、咨询等。这些非结构化文本都是自然语言的形式,经常包含一个或多个业务,这些业务是服务提供商为客户定制的,经常多达数百上千种。例如,一个电信客户投诉“短号网出问题了,充100送30的话费也没赠送”,其中包含电信运营商制定的两个业务“短号集群网”和“充值优惠”。
业务/业务信息的有效识别可以从非结构化文本中自动提取出业务名称,从而帮助服务提供商理解非结构化文本,为数据挖掘等相关技术提供支持。
另外,产品提供商也经常需要从非结构化文本(如公司主页、网上评论)中识别出产品的名称,从而为产品竞争分析、产品口碑分析等相关技术提供支持。
此外,从专利文件中识别出专利术语,可以帮助确定某专利的技术范围,并为专利检索等相关技术提供支持。
目前已经存在一些相关的信息识别方法,大多只能处理直接包含名称(如业务名称、产品名称、专利名称、领域关键词)或同义词形式的非结构化文本。例如,如果事先定义业务“短号集群网”的同义词是“短号网”,则可以从“短号网出问题了,充100送30的话费也没赠送”中提取出业务“短号集群网”,但无法提取出业务“充值优惠”。
例如,T.Nasukawa于2001年在IBM SYSTEMS JOURNAL上发表的论文“Text Analysis and Knowledge Mining System”中提供了一种从客户的投诉/咨询文本中提取领域关键词(可以是业务名称或产品名称)的方法,主要基于包含领域关键词名称及同义信息的语义词典来进行提取,当非结构化文本中包含某领域关键词或其同义词形式时,可以提取出相应的领域关键词,但当非结构化文本中不包含领域关键词名称或同义词形式时,则无法提取。
美国专利US 7,395,256 B2提供了一种从大量非结构化文档中提取重要关键词的方法,采用了基于统计的重要性计算方法,由此提取出重要性高的关键词,然后用于索引建立等用途。利用这种方法,能够找出新的关键词,但无法实现旧的关键词的映射,即无法根据一个已知的关键词词典,从非结构化文本中将与已知关键词没有同义关系的术语映射到已知关键词。
美国专利US 7,478,092 B2提供了一种从非结构化文本中提取关键术语的方法,首先提取出所有的名词或名词短语,然后利用预定的过滤规则选择出有代表性的名词或名词短语作为关键术语。利用这种方法,能够找出新的关键术语,但无法实现旧的关键术语的映射,即无法根据一个已知的关键术语词典,从非结构化文本中将与已知关键术语没有同义关系的术语映射到已知关键术语。
因此,现有的方法都无法根据基于预先设定的词典,从不包含名称或其同义词形式的非结构化文本中提取出相应的名称,达到信息识别的目的。
发明内容
考虑到现有技术的上述缺陷,本发明提出了一种用于识别非结构化文本中的信息的方法和装置,不仅能够处理包含名称或同义词形式的非结构化文本,也能够处理不包含名称或同义词形式的非结构化文本。在本发明中,所要识别的非结构化文本中的信息可以是服务提供商提供的业务、产品提供商提供的产品、专利术语、和/或相关领域的关键词,这些信息可以存储在词典中。在本说明书中,将以服务提供商提供的业务为例,进行详细描述,但本意并非将本发明局限于以下详细描述的具体实施例。
根据本发明的第一方案,提出了一种信息识别装置,包括:基础术语提取单元,用于根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;术语提取规则生成单元,用于基于由所述基础术语提取单元提取出的基础术语和所述第一非结构化文本,生成术语提取规则;术语提取单元,用于基于由所述基础术语提取单元提取出的基础术语、由所述术语提取规则生成单元生成的术语提取规则,从第二非结构化文本中提取出新的术语;术语映射单元,用于将所述术语提取单元所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
优选地,所述第二非结构化文本与所述第一非结构化文本相同或者是所述第一非结构化文本的子集;或者所述第二非结构化文本与所述第一非结构化文本完全不同或部分不同。
优选地,所述术语映射单元基于映射规则,查找术语到名称的映射,得到所述最适合的名称;和/或所述术语映射单元基于字符串相似度,找出与所述术语提取单元所提取出的术语最相似的名称,作为所述最适合的名称。
优选地,所述信息识别装置还包括:基础术语扩展单元,用于以所述术语提取单元所提取出的术语更新基础术语。
更优选地,在所述基础术语扩展单元对基础术语的更新改变了基础术语的数量的情况下,所述术语提取规则生成单元基于更新后的基础术语,更新术语提取规则;所述术语提取单元基于更新后的术语提取规则,再次执行从所述第二非结构化文本中提取新的术语的操作;所述术语映射单元再次执行术语映射操作;以及所述基础术语扩展单元再次执行对基础术语的更新操作,在所述基础术语扩展单元对基础术语的更新未改变基础术语的数量的情况下,所述术语提取规则生成单元、所述术语提取单元、所述术语映射单元和所述基础术语扩展单元结束操作。
优选地,所述信息识别装置还包括:基于关键字的术语提取单元,用于在所述术语提取单元未能提取出新术语时,基于关键字表从所述第二非结构化文本中提取名称,作为所识别出的信息。
优选地,所述第一非结构化文本和所述第二非结构化文本是自然语言形式的文本。
优选地,所述术语提取规则包括向左扩展规则和向右扩展规则。
更优选地,所述术语提取规则生成单元执行以下操作:基于基础术语,从所述第一非结构化文本中抽取出包含任一基础术语的句子,形成训练集;对训练集中的每个训练句子,利用分词工具来分词,得到组成训练句子的各个词及其词性,自动标识每个词的位置标签;针对训练集中基础术语包含的每个词,抽取向左扩展特征和向右扩展特征;以及采用机器学习方法,根据所提取出的向左扩展特征,生成向左扩展规则,根据所提取出的向右扩展特征,生成向右扩展规则。
更优选地,所述术语提取单元执行以下操作:对所述第二非结构化文本中的各个句子,利用分词工具来分词,得到各个词及词性;在各个句子中,找出基础术语中包含的词,作为术语中心词;从每个术语中间词开始,按照向左扩展规则和向右扩展规则,进行术语的词扩展;合并扩展后的词,得到新的术语。
优选地,所述词典中的名称包含以下内容中的至少一项:业务名称、产品名称、专利术语、和相关领域的关键词。
根据本发明的第二方案,提出了一种信息识别方法,包括:根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;基于所提取出的基础术语和所述第一非结构化文本,生成术语提取规则;基于所提取出的基础术语和所生成的术语提取规则,从第二非结构化文本中提取出新的术语;将所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
优选地,所述第二非结构化文本与所述第一非结构化文本相同或者是所述第一非结构化文本的子集;或者所述第二非结构化文本与所述第一非结构化文本完全不同或部分不同。
优选地,在术语-名称映射步骤中:基于映射规则,查找术语到名称的映射,得到所述最适合的名称;和/或基于字符串相似度,找出与所提取出的术语最相似的名称,作为所述最适合的名称。
优选地,所述信息识别方法还包括:以所提取出的术语更新基础术语。
更优选地,在对基础术语的更新改变了基础术语的数量的情况下,基于更新后的基础术语,更新术语提取规则;基于更新后的术语提取规则,再次从所述第二非结构化文本中提取新的术语;再次进行术语的映射;以及再次执行对基础术语的更新,在对基础术语的更新未改变基础术语的数量的情况下,结束操作。
优选地,所述信息识别方法还包括:在基于所提取出的基础术语和所生成的术语提取规则,未能从第二非结构化文本中提取出新的术语时,基于关键字表,从所述第二非结构化文本中提取名称,作为所识别出的信息。
优选地,所述第一非结构化文本和所述第二非结构化文本是自然语言形式的文本。
优选地,所述术语提取规则包括向左扩展规则和向右扩展规则。
更优选地,所述生成术语提取规则的步骤包括以下子步骤:基于基础术语,从所述第一非结构化文本中抽取出包含任一基础术语的句子,形成训练集;对训练集中的每个训练句子,利用分词工具来分词,得到组成训练句子的各个词及其词性,自动标识每个词的位置标签;针对训练集中基础术语包含的每个词,抽取向左扩展特征和向右扩展特征;以及采用机器学习方法,根据所提取出的向左扩展特征,生成向左扩展规则,根据所提取出的向右扩展特征,生成向右扩展规则。
更优选地,所述从第二非结构化文本中提取出新的术语的步骤包括以下子步骤:对所述第二非结构化文本中的各个句子,利用分词工具来分词,得到各个词及词性;在各个句子中,找出基础术语中包含的词,作为术语中心词;从每个术语中间词开始,按照向左扩展规则和向右扩展规则,进行术语的词扩展;合并扩展后的词,得到新的术语。
优选地,所述词典中的名称包含以下内容中的至少一项:业务名称、产品名称、专利术语、和相关领域的关键词。
本发明有效地解决了从非结构化文本中有效识别信息的问题,不仅能够从包含名称或同义词形式的非结构化文本中提取出信息,也能够从不包含名称或同义词形式的非结构化文本中提取出信息。此外,本发明具有自适应的学习功能:从非结构化文本中,起初只能识别出少量名称,然后根据提取结果经过自适应的学习后,又可以识别出更多的名称,不断循环上述学习过程可以尽可能全地识别出非结构化文本中的所有名称。另外,训练文本和测试文本可以是同样的文本,因此从某文本中学习到的规则可以直接应用于该文本,从而可以得到更加准确、更加全面的信息识别结果。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1是示出了根据本发明第一实施例的用于识别非结构化文本中的业务信息的装置1000的示意方框图。
图1A是示出了根据本发明第一实施例的业务信息识别装置1000的整体操作的流程图。
图2以电信运营商为例、示出了非结构化文本1的具体实例。
图3以电信运营商为例、示出了业务词典1110的具体实例。
图4是示出了基础业务术语提取单元1200的操作的流程图。
图4A以电信运营商为例、示出了基础业务术语提取单元1200的示例操作。
图5是示出了业务术语提取规则生成单元1300的操作的流程图。
图5A以电信运营商为例、示出了业务术语提取规则生成单元1300的示例操作。
图5B示出了向左扩展规则生成的具体操作示例。
图5C示出了业务术语提取规则库1130的具体示例。
图6是示出了业务术语提取单元1400的操作的流程图。
图6A以电信运营商为例、示出了业务术语提取单元1400的示例操作。
图7是示出了业务术语映射单元1500的操作的流程图。
图7A以电信运营商为例、示出了业务术语映射单元1500的示例操作。
图7B以电信运营商为例、示出了业务术语映射单元1500的另一示例操作。
图8示出了根据本发明第二实施例的用于识别非结构化文本中的业务信息的装置8000的示意方框图。
图8A是示出了根据本发明第二实施例的业务信息识别装置8000的整体操作的流程图。
图9示出了根据本发明第三实施例的用于识别非结构化文本中的业务信息的装置9000的示意方框图。
图9A示出了关键字表1140的具体示例。
图10是示出了基于关键字的业务术语提取单元9700的操作的流程图。
图10A示出了基于关键字的业务术语提取单元9700的示例操作。
在本发明的所有附图中,相同或相似的结构和步骤均以相同或相似的附图标记标识。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。在本发明中,所要识别的非结构化文本中的信息可以是服务提供商提供的业务、产品提供商提供的产品、专利术语、和/或相关领域的关键词,这些信息可以存储在词典中。在本说明书中,将以服务提供商提供的业务为例,进行详细描述,但本意并非将本发明局限于以下详细描述的具体实施例。
【第一实施例】
图1是示出了根据本发明第一实施例的用于识别非结构化文本中的业务信息的装置1000的示意方框图。图1A是示出了根据本发明第一实施例的业务信息识别装置1000的整体操作的流程图。
如图1所示,根据本发明第一实施例的业务信息识别装置1000包括:存储单元1100、基础业务术语提取单元1200、业务术语提取规则生成单元1300、业务术语提取单元1400和业务术语映射单元1500。
存储单元1100用于存储业务词典1110、基础业务术语库1120和业务术语提取规则库1130。业务词典1110用于存储服务提供商的各个业务名称和同义词形式(在本发明中,同义词形式不是必需的)。基础业务术语库1120用于存储基于业务词典1110从输入的非结构化文本1中提取出的基础业务术语。业务术语提取规则库1130用于存储的多条业务术语提取规则,例如,业务术语提取规则可以包括但不局限于向左扩展规则和向右扩展规则。
基础业务术语提取单元1200根据业务词典1110,从输入的非结构化文本1中提取出非结构化文本1中所包含的业务名称,并写入基础业务术语库1120(图1A中的步骤S110)。
业务术语提取规则生成单元1300基于由基础业务术语提取单元1200提取出的存储在基础业务术语库1120中的基础业务术语和非结构化文本1,生成业务术语提取规则(例如,向左扩展规则、向右扩展规则),并写入业务术语提取规则库1130(图1A中的步骤S120)。
业务术语提取单元1400基于由基础业务术语提取单元1200提取出的存储在基础业务术语库1120中的基础业务术语、由业务术语提取规则生成单元1300生成的存储在业务术语提取规则库1130中的业务术语提取规则,从输入的非结构化文本1中提取出新的业务术语(图1A中的步骤S130)。
业务术语映射单元1500将业务术语提取单元1400所提取出的每个业务术语映射到业务词典1110中最适合的业务,作为所识别出的业务/业务信息(图1A中的步骤S140)。
作为基础业务术语提取单元1200、业务术语提取规则生成单元1300和业务术语提取单元1400的输入的非结构化文本1是自然语言形式的文本。服务提供商的非结构化文本可以是客户投诉/咨询/评论等。图2以电信运营商为例、示出了非结构化文本1的具体实例,如,“充值卡的有效期是多久”、“短号网出问题了,充100送30的话费也没赠送”等。
另外,可选地,作为业务术语提取单元1400的输入,可以采用与非结构化文本1不同的非结构化文本2(部分不同或完全不同),即,将根据非结构化文本1生成的业务术语提取规则应用于与之不同的非结构化文本2。通常,这种情况的优选应用场景应局限于相同服务的类似非结构化文本,例如,同一服务运营商不同月份的客户投诉/咨询。
业务词典1110存储了服务提供商的各个业务名称,或者存储了服务提供商的各个业务名称和同义词形式。同样地,图3以电信运营商为例、示出了业务词典1110的具体实例,如“充值卡”、“短号集群网”、“充值优惠”、“GPRS”、“新闻早晚报纸”、“无故扣费”等业务,其中“短号网”是“短号集群网”的同义词,“gprs”是“GPRS”的同义词等。通常,业务词典1110是由服务提供商准备并提供的。
图4是示出了基础业务术语提取单元1200的操作的流程图。如图4所示,基础业务术语提取单元1200执行以下操作:步骤S410,从非结构化文本1中找出业务词典1110中的词;以及步骤S420,将所找到的词作为基础业务术语写入到基础业务术语库1120中。
同样地,图4A以电信运营商为例、示出了基础业务术语提取单元1200的示例操作。针对非结构化文本“充值卡的有效期是多久”和“短号网出问题了,充100送30的话费也没赠送”,提取出基础业务术语“充值卡”和“短号网”,并写入基础业务术语库1120。
图5是示出了业务术语提取规则生成单元1300的操作的流程图。如图5所示,业务术语提取规则生成单元1300执行以下操作。
步骤S510,训练集收集:基于基础业务术语库1120,从非结构化文本1中抽取出包含任一基础业务术语的句子,形成训练集。
步骤S520,训练集自动标注:对训练集中的每个训练句子,先利用公知的分词工具来分词,得到组成训练句子的各个词及其词性,然后自动标识每个词的位置标签。按照以下方法来标识每个词的位置标签:
Figure BSA00000462864900101
将基础业务术语的第一个词标记为A;
Figure BSA00000462864900102
将基础业务术语的最后一个词标记为C;
Figure BSA00000462864900103
将基础业务术语的中间词(即非第一个词也非最后一个词)标记为B;
将基础业务术语之外的词标记为X。
步骤S530,特征抽取:针对训练集中基础业务术语包含的每个词wf(假设wf所处的句子的词序列为:wf-i…wf-2wf-1wfwf+1wf+2…wf+j…),抽取以下两类特征:
类1:向左扩展特征,包括但不限于以下12个:
Figure BSA00000462864900105
wf的词性、
wf的长度、
Figure BSA00000462864900107
wf在各个基础业务术语中出现的次数、
wf在各个非结构化文本中出现的次数、
wf作为基础业务术语第一个词的概率、
Figure BSA000004628649001010
wf作为基础业务术语中间词的概率、
Figure BSA000004628649001011
wf作为基础业务术语最后一个词的概率、
Figure BSA000004628649001012
wf-1的词性、
Figure BSA000004628649001013
wf-1的长度、
wf-1作为基础业务术语第一个词的概率、
Figure BSA000004628649001015
wf-1作为基础业务术语中间词的概率、
Figure BSA000004628649001016
wf-1作为基础业务术语最后一个词的概率。
其中,为了适用于模型训练步骤S540的要求,可以将非离散(值难以穷举)的特征进行离散化。例如wf作为基础业务术语第一个词的概率的计算方法:首先,计算概率绝对值=wf出现在各个基础业务术语第一个词的次数/wf在各个基础业务术语中出现的次数;然后,通过将概率绝对值划分到区间[0,0.1]、(0.1,0.2]、(0.2,0.3]、(0.3,0.4]、(0.4,0.5]、(0.5,0.6]、(0.6,0.7]、(0.7,0.8]、(0.8,0.9]、(0.9,1],从而实现概率值的离散化,以适用于模型训练步骤S540的要求。
类2:向右扩展特征,包括但不限于以下12个:
Figure BSA00000462864900111
wf的词性、
Figure BSA00000462864900112
wf的长度、
Figure BSA00000462864900113
wf在各个基础业务术语中出现的次数、
Figure BSA00000462864900114
wf在各个非结构化文本中出现的次数、
wf作为基础业务术语第一个词的概率、
Figure BSA00000462864900116
wf作为基础业务术语中间词的概率、
Figure BSA00000462864900117
wf作为基础业务术语最后一个词的概率、
Figure BSA00000462864900118
wf+1的词性、
Figure BSA00000462864900119
wf+1的长度、
Figure BSA000004628649001110
wf+1作为基础业务术语第一个词的概率、
Figure BSA000004628649001111
wf+1作为基础业务术语中间词的概率、
Figure BSA000004628649001112
wf+1作为基础业务术语最后一个词的概率。
其中,为了适用于模型训练步骤S540的要求,可以将非离散(值难以穷举)的特征进行离散化。离散化方法同上。
步骤S540,模型训练。
首先,对训练集中基础业务术语包含的每个词wf,识别出wf的向左扩展类别和向右扩展类别,其中向左扩展类别的值域是{继续向左扩展,停止向左扩展},向右扩展类别的值域是{继续向右扩展,停止向右扩展}。具体的识别方法如下:
Figure BSA000004628649001113
向左扩展类别的识别:如果wf作为基础业务术语第一个词,则wf的向左扩展类别是“停止向左扩展”,否则是“继续向左扩展”;以及
向右扩展类别的识别:如果wf作为基础业务术语最后一个词,则wf的向右扩展类别是“停止向右扩展”,否则是“继续向右扩展”。
然后,对训练集中所有的基础业务术语,生成以下集合:
Figure BSA00000462864900121
构成一个基础业务术语W的词集合为W={w1,w2,…,wm}、
Figure BSA00000462864900122
各个词的向左扩展特征集合为LF={lf1,lf2,…,lfm},其中lfi=(f(L)1=vi(L)1,f(L)2=vi(L)2,…,f(L)12=vi(L)12),f(L)j(j=1…12)为第j个向左扩展特征,vi(L)j为词wi的第j个向左扩展特征的值、
Figure BSA00000462864900123
各个词的向右扩展特征集合为RF={rf1,rf2,…,rfm},其中rfi=(f(R)1=vi(R)1,f(R)2=vi(R)2,…,f(R)12=vi(R)12),f(R)j(j=1…12)为第j个向右扩展特征,vi(R)j为词wi的第j个向右扩展特征的值、
Figure BSA00000462864900124
各词的向左扩展类别集合为LC={lc1,lc2,…,lcm}、
各词的向右扩展类别集合为RC={rc1,rc2,…,rcm}。
其中m为词的个数,lfi是词wi的向左扩展特征,rfi是词wi的向右扩展特征,lci是词wi的向左扩展类别,rci是词wi的向右扩展类别,i=1…m。
最后,采用机器学习方法,基于LF和LC来生成向左扩展规则集,基于RF和RC来生成向右扩展规则集。
Figure BSA00000462864900126
向左扩展规则描述了:已知wf是业务术语的一部分,是否将当前词wf左边的词wf-1也作为业务术语的一部分。
Figure BSA00000462864900127
向右扩展规则描述了:已知wf是业务术语的一部分,是否将当前词wf右边的词wf+1也作为业务术语的一部分。
规则反映了特征与扩展类别之间的关联,形式为
“条件(特征名1,…,特征名n,…)→扩展类别”
例如:向左扩展规则
“wf作为基础业务术语第一个词的概率=(0.9,1]→停止向左扩展”。
以下,给出了一种用在上述步骤S540中的机器学习方法的具体示例,用于生成向左扩展规则集(生成向右扩展规则集的具体示例与之类似),但显而易见的是,也可以利用公知的其他机器学习方法(如决策树算法等)来实现。
(1)从12个向左扩展特征中选择重要特征,如“wf的词性”、“wf作为基础业务术语第一个词的概率”。
(2)单特征规则提取:
计算根据上述每个重要特征的各值推导出每个向左扩展类别ct的概率,其中ct∈{继续向左扩展,停止向左扩展},计算公式为:
P ( f ′ ′ ( L ) j = V j → c t ′ ′ ) = Σ i = 1 m S i Σ i = 1 m T i
其中:
如果lfi=(…,f(L)j=vi(L)j,…)中vi(L)j=Vj且lci=ct,则Si=1;否则Si=0;
如果lfi=(…,f(L)j=vi(L)j,…)中vi(L)j=Vj,则Ti=1;否则Ti=0;
其中,Vj是值域集合VJ={v1(L)j,…,vi(L)j,…,vm(L)j}中的一个值,且遍历值域集合VJ中的每一个值。
例如,P(“wf作为基础业务术语第一个词的概率=(0.9,1]→停止向左扩展”)=2/2=1。
如果P(″f(L)j=Vj→ct″)大于等于预先设定的概率阈值(如0.8),则生成条件为单个特征的向左扩展规则“f(L)j=Vj→ct”,并添加到向左扩展规则集中。
(3)双特征规则提取:
如果P(″f(L)j=Vj→ct″)小于预先设定的概率阈值,则联合12个向左扩展特征中的另一其他特征,重复步骤(2),计算公式可类似地扩展为:
Figure BSA00000462864900132
其中:
如果lfi=(…,f(L)j=vi(L)j,…,f(L)k=vi(L)k,…)中vi(L)j=Vj、vi(L)k=Vk且lci=ct,则Si=1;否则Si=0;
如果lfi=(…,f(L)j=vi(L)j,…,f(L)k=vi(L)k,…)中vi(L)j=Vj且vi(L)k=Vk,则Ti=1;否则Ti=0;
其中,Vj是值域集合VJ={v1(L)j,…,vi(L)j,…,vm(L)j}中的一个值,且遍历值域集合VJ中的每一个值;以及Vk是值域集合VK={v1(L)k,…,vi(L)k,…,vm(L)k}中的一个值,且遍历值域集合VK中的每一个值。
如果P(″f(L)j=Vj&&f(L)k=Vk→ct″)大于等于预先设定的概率阈值(如0.8),则生成条件为两个特征的向左扩展规则,形式如“f(L)j=Vj&&f(L)k=Vk→ct”。
(4)按照上述方法,可以继续进行三特征、四特征直到所有12特征的规则提取。这里,为了提高算法效率,可以设定一个最大特征数,当特征数超过最大特征数时,则不再进行规则提取。例如,最大特征数=3表示只进行单特征、双特征和三特征的规则提取。
另外,为了弥补机器学习方法得到的规则集不够全面的缺陷,还可以人工补充一些其他预定规则,例如:
Figure BSA00000462864900141
向右扩展规则:wf和wf+1在各个基础业务术语中共同出现的频度高于预定值→继续向右扩展
Figure BSA00000462864900142
向左扩展规则:wf-1和wf在各个基础业务术语中共同出现的频度高于预定值→继续向左扩展
步骤S550,将所生成的业务术语提取规则(例如,向左扩展规则集和向右扩展规则集)存储在业务术语提取规则库1130中。
同样地,图5A以电信运营商为例、示出了业务术语提取规则生成单元1300的示例操作。对于非结构化文本“充值卡的有效期是多久”、“短号网出问题了,充100送30的话费也没赠送”,基础业务术语是“充值卡”和“短号网”(参考图4A)。
首先,提取出包含基础业务术语的句子“充值卡的有效期是多久”和“短号网出问题了”,形成训练集(步骤S510)。
然后,进行自动标注(步骤S520),
“充值卡的有效期是多久”被标注为:
“充/v/A 值/v/B 卡/n/C 的/u/X 有效期/n/X 是/v/X 多久/r/X”
其含义是
Figure BSA00000462864900151
“充”的词性是动词、位于基础业务术语的第一个词,
“值”的词性是动词、位于基础业务术语的中间词,
Figure BSA00000462864900153
“卡”的词性是名词,位于基础业务术语的最后一个词,
Figure BSA00000462864900154
……
提取基础业务术语中各词的向左扩展特征和向右扩展特征(步骤S530),以词语“充”为例:
*向左扩展特征是
充(v/2/1/2/(0.9,1]/[0,0.1]/[0,0.1]/-)
其含义是
Figure BSA00000462864900155
当前词的词性为动词v、
当前词的长度为2个字节、
Figure BSA00000462864900157
当前词在各个基础业务术语中出现了1次、
Figure BSA00000462864900158
当前词在各个非结构化文本中出现了2次、
Figure BSA00000462864900159
当前词作为基础业务术语第一个词的概率为(0.9,1]、
Figure BSA000004628649001510
当前作为基础业务术语中间词的概率为[0,0.1]、
当前词作为基础业务术语最后一个词的概率为[0,0.1]、
Figure BSA000004628649001512
左边词的词性为-、
Figure BSA000004628649001513
左边词的长度为-、
Figure BSA000004628649001514
左边词作为基础业务术语第一个词的概率为-、
Figure BSA000004628649001515
左边词作为基础业务术语中间词的概率为-、
Figure BSA000004628649001516
左边词作为基础业务术语最后一个词的概率为-。
*向右扩展特征是
充(v/2/1/2/(0.9,1]/[0,0.1]/[0,0.1]/v/2/[0,0.1]/(0.9,1]/[0,0.1])其含义是
当前词的词性为动词v、
Figure BSA00000462864900162
当前词的长度为2个字节、
Figure BSA00000462864900163
当前词在各个基础业务术语中出现了1次、
Figure BSA00000462864900164
当前词在各个非结构化文本中出现了2次、
Figure BSA00000462864900165
当前词作为基础业务术语第一个词的概率为(0.9,1]、
Figure BSA00000462864900166
当前作为基础业务术语中间词的概率为[0,0.1]、
当前词作为基础业务术语最后一个词的概率为[0,0.1]、
Figure BSA00000462864900168
右边词的词性为动词v、
右边词的长度为2、
Figure BSA000004628649001610
右边词作为基础业务术语第一个词的概率为[0,0.1]、
Figure BSA000004628649001611
右边词作为基础业务术语中间词的概率为(0.9,1]、
Figure BSA000004628649001612
右边词作为基础业务术语最后一个词的概率为[0,0.1]。
然后,进行模型训练,以得到向左扩展规则和向右扩展规则(步骤S540)。
图5B示出了向左扩展规则生成的具体操作示例(向右扩展规则生成的方法类似,不赘述)。首先,识别出基础业务术语中各词的向左扩展类别,例如,“充”对应“停止向左扩展”、“值”对应“继续向左扩展”、…。然后,生成如图5B所示的词集合W、向左扩展特征集合LF和向左扩展类别集合LC。图5B中每列数据代表集合的一个元素。在本例中,预先设定概率阈值为0.8、最大特征数为1,则采用前述机器学习方法,可以得到单特征的向左扩展规则,例如:“w0作为基础业务术语第一个词的概率=(0.9,1]→停止向左扩展”的概率为1,大于概率阈值0.8,因此作为向左扩展规则;“w0的词性=v→停止向左扩展”的概率为0.5,小于概率阈值0.8,因此不作为向左扩展规则;……。
最后,将所生成的向左扩展规则集和向右扩展规则集存储在业务术语提取规则库1130中(步骤S550)。
图5C示出了业务术语提取规则库1130的具体示例。例如,向左扩展规则“wf作为基础业务术语第一个词的概率=(0.9,1]→停止向左扩展”的含义为“如果当前词经常出现在业务术语的第一个词,则左边词不作为业务术语的一部分,停止向左扩展”。再如向右扩展规则“wf的词性=adj→继续向右扩展”的含义为“如果当前词的词性是形容词,则将右边的词也作为业务术语的一部分”。
图6是示出了业务术语提取单元1400的操作的流程图。如图6所示,业务术语提取单元1400执行以下操作。
步骤S610,自动分词:对非结构化文本1中除了训练集以外的各个句子,利用公知的分词工具来分词从而得到各个词及词性。
步骤S620,业务术语定位:查看由基础业务术语提取单元1200提取出的存储在基础业务术语库1120中的每个基础业务术语中包含的任意一个词是否在非结构化文本1中除了训练集以外的各个句子中出现,如果出现,则将该词标记为B(即业务术语中间词),并作为业务术语中心词。
步骤S630,业务术语扩展:
针对每个术语中心词,
将其作为当前词,并提取其向左扩展特征的值(提取方法与业务术
语提取规则生成单元1300中的特征抽取操作(步骤S530)相同);然后,在业务术语提取规则库1130中查找匹配的向左扩展规则;如果没有匹配的规则或者匹配的规则判定“继续向左扩展”,则将
当前词标记为B,并将当前词左边的词作为当前词,重复上述特征抽取和判断步骤;
如果找到匹配的规则并判定出“停止向左扩展”,则将当前词作为新业务术语的起始位置,如果当前词的标记为B或未被标记,则将当前词标记为A,否则,不必修改当前词的标记。
针对每个术语中心词,
将其作为当前词,并提取其向右扩展特征的值(提取方法与业务术
语提取规则生成单元1300中的特征抽取操作(步骤S530)相同);然后,在业务术语提取规则库1130中查找匹配的向右扩展规则;如果没有匹配的规则或者匹配的规则判定“继续向右扩展”,则将
当前词标记为B,并将当前词右边的词作为当前词,重复上述特征抽取和判断步骤;
如果找到匹配的规则并判定出“停止向右扩展”,则将当前词作为新业务术语的结束位置,如果当前词的标记为B或未被标记,则将当前词标记为C,否则,不必修改当前词的标记。
步骤S640,业务术语生成:对标识出的符合“A”或“AC”或“AB*C”标记的连续词进行合并,其中*号为通配符,表示0个、1个或多个B。合并得到的短语就是识别出的新业务术语。
同样地,图6A以电信运营商为例、示出了业务术语提取单元1400的示例操作。
对非结构化文本中的句子“充100送30的话费也没赠送”进行自动分词(步骤S610),得到词序列
“充/v 100/m送/v 30/m的/u 话费/n 也/d 没/d 赠送/v”
然后,进行业务术语定位(步骤S620),基础业务术语“充值卡”中的词“充”出现在上述句子中,因此将该词标记为B,并作为术语中心词。
对术语中心词“充”进行业务术语扩展,“充”作为基础业务术语第一个词的概率=(0.9,1],找到匹配的向左扩展规则“wf作为基础业务术语第一个词的概率=(0.9,1]→停止向左扩展”,因此停止向左扩展,将“充”作为新业务术语的起始位置,并标记为A;对于“充”、“100”和“送”未找到匹配的向右扩展规则,因此,将这些词标记为B;对于“30”,由于“30”右边的词“的/u”的词性是u(助词),找到匹配的向右扩展规则“wf+1的词性=u→停止向右扩展”,因此,在“的”前停止向右扩展,将“30”作为新业务术语的结束位置,并标记为C。
经过上述操作(步骤S630),得到标记结果“充/v/A 100/m/B 送/v/B 30/m/C 的/u 话费/n 也/d 没/d 赠送/v”
最后,合并符合“ABBC”的连续词,得到新业务术语“充100送30”(步骤S640)。
图7是示出了业务术语映射单元1500的操作的流程图。如图7所示,业务术语映射单元1500对业务术语提取单元1400所提取出的新业务术语执行以下两种方法之一或二者:
1)基于业务映射规则,查找业务术语映射的业务。
业务映射规则是事先人工总结好的多条规则。每条规则由业务术语模式和业务名称组成,其形式为
“业务术语模式→业务名称”,
其含义为“当业务术语和业务术语模式匹配时,则将业务术语映射到相应的业务名称”。其中,业务术语模式中除了关键词外,还可以有系统自定义的类别,例如,业务术语模式“充<数字>送<数字>”中,“充”和“送”都是关键词,“<数字>”是系统自定义的类别,表示此处可以是任意数字。
对于来自业务术语提取单元1400的新业务术语,先与各条业务映射规则的业务术语模式进行匹配,若匹配成功,则取出规则的业务名称作为结果。
*匹配方法:将业务术语与业务术语模式从左向右逐词比较(若模式中是关键词,则相同才算词匹配,若模式中是类别,则业务术语词属于类别才算词匹配),如果所有词都匹配,则匹配成功,否则匹配失败。
2)基于字符串相似度,找出与新业务术语最相似的业务(相似度最大且大于预定阈值)。
如果新业务术语包含超过3个汉字,则可以使用二元相似度计算方法来计算新业务术语与业务词典中每个业务名称的相似度。
假设新业务术语为t,业务名称为s,则二元相似度(t,s)=|2grams(t)∩2grams(s)|/|2grams(t)∪2grams(s)|,其中2grams(x)表示x包含的二元词集合(若x=ABCD,则二元词集合为{AB,BC,CD}),|SET|表示集合SET的元素个数。
例如,计算“新闻早晚报”和“新闻早晚报纸”的二元相似度时,2grams(新闻早晚报)={新闻,闻早,早晚,晚报},2grams(新闻早晚报纸)={新闻,闻早,早晚,晚报,报纸},因此2grams(新闻早晚报)∩2grams(新闻早晚报纸)={新闻,闻早,早晚,晚报},2grams(新闻早晚报)∪2grams(新闻早晚报纸)={新闻,闻早,早晚,晚报,报纸},于是二元相似度(新闻早晚报,新闻早晚报纸)=4/5。
如果新业务术语包含不超过3个汉字,则可以使用公知的编辑距离的方法来计算新业务术语与业务词典中每个业务名称的相似度。
编辑距离方法所计算的是:要使两个字符串变成一样,需要多少次字符的替换、插入或删除操作。操作次数越少,相似度越高。具体相似度计算公式为
1 - D ( x , y ) Max ( Len ( x ) , Len ( y ) ) ,
其中D(x,y)为使x与y相同的最少操作次数,Max(Len(x),Len(y))为x和y的字符串长度的最大值。
例如,计算新业务术语“短号网”和业务名称“短号集群网”的编辑距离相似度时,由于“短号网”插入两个字符即可变成“短号集群网”(D(短号网,短号集群网)=2),字符串长度的最大值Max(Len(短号网),Len(短号集群网))=5,因此二者的相似度为1-2/5=3/5。
上述两种方法可以单独使用,也可以组合使用。例如,可以先执行方法1)基于业务映射规则查找业务术语映射的业务,如果没有结果,再执行方法2)计算业务术语和业务词典中每个业务的字符串相似度,选出相似度最高且大于预定阈值的业务名称,作为映射业务。或者,也可以先执行方法2),如果没有结果,再执行方法1)。或者,可以并行地执行上述方法1)和方法2)。
图7A以电信运营商为例、示出了业务术语映射单元1500的示例操作。在图7A的例子中,业务术语“充100送30”可以和业务映射规则“充<数字>送<数字>→充值优惠”匹配,其中“充”与“充”相同、“100”属于“<数字>”、“送”与“送”相同、“30”属于“<数字>”,因此映射得到业务“充值优惠”。
图7B以电信运营商为例、示出了业务术语映射单元1500的另一示例操作。在图7B的例子中,针对业务术语“新闻早晚报”,计算它与各个业务名称的字符串相似度,然后发现与业务“新闻早晚报纸”的相似度(=4/5)最高且大于预定阈值(=0.75),因此,将其映射到业务“新闻早晚报纸”。
根据本发明的第一实施例,有效地解决了从非结构化文本中有效识别业务/业务信息的问题,不仅能够从包含业务名称或同义词形式的非结构化文本中提取出业务/业务信息,也能够从不包含业务名称或同义词形式的非结构化文本中提取出业务/业务信息。另外,训练文本(非结构化文本1)和测试文本(非结构化文本2)可以是同样的文本,因此从某文本中学习到的规则可以直接应用于该文本,从而可以得到更加准确、更加全面的业务识别结果。
【第二实施例】
图8示出了根据本发明第二实施例的用于识别非结构化文本中的业务信息的装置8000的示意方框图。图8A是示出了根据本发明第二实施例的业务信息识别装置8000的整体操作的流程图。
图8中与图1中相同的单元以相同的附图标记来表示,图8A中与图1A中相同的步骤以相同的附图标记来表示,其详细描述可参考前述具体内容,为了简明起见,在此不再赘述。图8所示业务信息识别装置8000与图1所示业务信息识别装置1000的区别主要在于引入了基础业务术语扩展单元8600。图8A所示业务信息识别装置8000的业务操作流程与图1A所示业务信息识别装置1000的业务操作流程的区别主要在于引入了基础业务术语更新步骤S850。
基础业务术语扩展单元8600以业务术语提取单元1400所提取出的业务术语更新基础业务术语库1120(图8A中的步骤S850)。如果发生对基础业务术语库1120的更新,即有新的基础业务术语被添加到基础业务术语库1120中(图8A中的步骤S150中的“是”),则业务术语提取规则生成单元1300基于更新后的基础业务术语库1120,更新业务术语提取规则库1130(图8A中的步骤S120);业务术语提取单元1400基于更新后的业务术语提取规则库1130,再次执行从输入的非结构化文本1中提取新的业务术语的操作(图8A中的步骤S130);业务术语映射单元1500同样地再次执行业务术语映射操作(图8A中的步骤S140);以及基础业务术语扩展单元8600再次执行对基础业务术语库1120的更新操作(图8A中的步骤S850)。以上各个单元(业务术语提取规则生成单元1300、业务术语提取单元1400、业务术语映射单元1500和基础业务术语扩展单元8600)重复循环执行相应操作,直至不再发生对基础业务术语库1120的更新为止,即没有新的基础业务术语被添加到基础业务术语库1120(图8A中的步骤S850中的“否”)。
类似于针对图1的描述,可选地,作为业务术语提取单元1400的输入,可以采用与非结构化文本1不同的非结构化文本2(部分不同或完全不同),即,将根据非结构化文本1生成的业务术语提取规则应用于与之不同的非结构化文本2,并根据非结构化文本2进一步生成新的基础业务术语和新的业务术语提取规则。通常,这种情况的优选应用场景应局限于相同服务的类似非结构化文本,例如,同一服务运营商不同月份的客户投诉/咨询。
根据本发明的第二实施例,可以实现自适应的学习功能:从非结构化文本中,起初只能识别出少量业务,然后根据提取结果经过自适应的学习后,又可以识别出更多的业务,不断循环上述学习过程可以尽可能全地识别出非结构化文本中的所有业务。
【第三实施例】
图9示出了根据本发明第三实施例的用于识别非结构化文本中的业务信息的装置9000的示意方框图。本发明的第三实施例可以与第一实施例或第二实施例组合,主要用于处理业务术语提取单元1400基于基础业务术语和业务术语提取规则未能从输入的非结构化文本1中提取出新的业务术语的情形。以下以第一实施例为例进行说明。图9中与图1中相同的单元以相同的附图标记来表示,其详细描述可参考前述具体内容,为了简明起见,在此不再赘述。图9所示业务信息识别装置9000与图1所示业务信息识别装置1000的区别主要在于引入了基于关键字的业务术语提取单元9700、以及存储在存储单元1100中的关键字表1140。
关键字表1140存储可以用来提取业务名称的多个启发式子串和/或启发式子序列。启发式子串的格式是
“字符串→业务名称”,
其含义为“当非结构化文本的某句子包含某字符串时,则认为是某业务名称”。
启发式字序列的格式是
“字符串1…字符串2…→业务名称”,
其含义为“当非结构化文本的某句子顺序包含字符串1、字符串2等时,则认为是某业务名称”。
图9A示出了关键字表1140的具体示例。例如,启发式子串“MJ→手机医疗”的含义是“当非结构化文本的某句子包含‘MJ’时,则对应的业务是‘手机医疗’”。再例如,启发式子序列“为什么…扣→无故扣费”的含义是“当非结构化文本的某句子顺序包含‘为什么’和‘扣’时,则对应的业务是‘无故扣费’”。
图10是示出了基于关键字的业务术语提取单元9700的操作的流程图。当业务术语提取单元1400未能提取出新业务术语时,基于关键字的业务术语提取单元9700基于关键字表1140从非结构化文本1中提取业务名称,具体执行以下两种方法之一或二者:
1)基于启发式子串的业务提取
对非结构化文本的每个句子,匹配各个启发式子串,检查句子是否出现某启发式子串的字符串。若出现,则取出对应的业务名称。
2)基于启发式子序列的业务提取
对非结构化文本的每个句子,匹配各个启发式子序列,检查句子是否顺序包含某启发式子序列的各个字符串。若包含,则取出对应的业务名称。
上述两种方法可以单独使用,也可以组合使用。例如,可以先执行方法1),如果没有结果,再执行方法2)。或者,也可以先执行方法2),如果没有结果,再执行方法1)。或者,可以并行地执行上述方法1)和方法2)。
图10A示出了基于关键字的业务术语提取单元9700的示例操作。对非结构化文本句子“MJ是怎么收费的”,因为其包含字符串“MJ”,所以匹配启发式子串“MJ→手机医疗”,于是提取出业务“手机医疗”;对非结构化文本句子“你们为什么老乱扣我的费用”,因为其顺序包含字符串“为什么”和“扣”,所以匹配启发式子序列“为什么…扣→无故扣费”,于是提取出业务“无故扣费”。
以上所详细描述的本发明的信息识别方案不仅可以应用于服务提供商提供的业务,也可以应用于产品提供商提供的产品、专利术语、和/或相关领域的关键词,这些信息可以存储在词典中。
这里所公开的本发明实施例的其他设置包括执行在先概述并随后详述的方法实施例的步骤和操作的软件程序。更具体地,计算机程序产品是如下的一种实施例:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,计算机程序逻辑提供相关的操作,从而提供上述业务/业务信息识别方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的业务/业务信息识别装置。根据本发明的业务/业务信息识别装置也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。
应该理解,严格地讲,本发明的实施例可以实现为数据处理设备上的软件程序、软件和硬件、或者单独的软件和/或单独的电路。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。

Claims (22)

1.一种信息识别装置,包括:
基础术语提取单元,用于根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;
术语提取规则生成单元,用于基于由所述基础术语提取单元提取出的基础术语和所述第一非结构化文本,生成术语提取规则;
术语提取单元,用于基于由所述基础术语提取单元提取出的基础术语、由所述术语提取规则生成单元生成的术语提取规则,从第二非结构化文本中提取出新的术语;
术语映射单元,用于将所述术语提取单元所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
2.根据权利要求1所述的信息识别装置,其特征在于
所述第二非结构化文本与所述第一非结构化文本相同或者是所述第一非结构化文本的子集;或者
所述第二非结构化文本与所述第一非结构化文本完全不同或部分不同。
3.根据权利要求1或2所述的信息识别装置,其特征在于
所述术语映射单元基于映射规则,查找术语到名称的映射,得到所述最适合的名称;和/或
所述术语映射单元基于字符串相似度,找出与所述术语提取单元所提取出的术语最相似的名称,作为所述最适合的名称。
4.根据权利要求1~3之一所述的信息识别装置,还包括:
基础术语扩展单元,用于以所述术语提取单元所提取出的术语更新基础术语。
5.根据权利要求4所述的信息识别装置,其特征在于
在所述基础术语扩展单元对基础术语的更新改变了基础术语的数量的情况下,
所述术语提取规则生成单元基于更新后的基础术语,更新术语提取规则;
所述术语提取单元基于更新后的术语提取规则,再次执行从所述第二非结构化文本中提取新的术语的操作;
所述术语映射单元再次执行术语映射操作;以及
所述基础术语扩展单元再次执行对基础术语的更新操作,
在所述基础术语扩展单元对基础术语的更新未改变基础术语的数量的情况下,
所述术语提取规则生成单元、所述术语提取单元、所述术语映射单元和所述基础术语扩展单元结束操作。
6.根据权利要求1~5之一所述的信息识别装置,还包括:
基于关键字的术语提取单元,用于在所述术语提取单元未能提取出新术语时,基于关键字表从所述第二非结构化文本中提取名称,作为所识别出的信息。
7.根据权利要求1~6之一所述的信息识别装置,其特征在于
所述第一非结构化文本和所述第二非结构化文本是自然语言形式的文本。
8.根据权利要求1~7之一所述的信息识别装置,其特征在于
所述术语提取规则包括向左扩展规则和向右扩展规则。
9.根据权利要求8所述的信息识别装置,其特征在于
所述术语提取规则生成单元执行以下操作:
基于基础术语,从所述第一非结构化文本中抽取出包含任一基础术语的句子,形成训练集;
对训练集中的每个训练句子,利用分词工具来分词,得到组成训练句子的各个词及其词性,自动标识每个词的位置标签;
针对训练集中基础术语包含的每个词,抽取向左扩展特征和向右扩展特征;以及
采用机器学习方法,根据所提取出的向左扩展特征,生成向左扩展规则,根据所提取出的向右扩展特征,生成向右扩展规则。
10.根据权利要求8或9所述的信息识别装置,其特征在于所述术语提取单元执行以下操作:
对所述第二非结构化文本中的各个句子,利用分词工具来分词,得到各个词及词性;
在各个句子中,找出基础术语中包含的词,作为术语中心词;
从每个术语中间词开始,按照向左扩展规则和向右扩展规则,进行术语的词扩展;
合并扩展后的词,得到新的术语。
11.根据权利要求1~10之一所述的信息识别装置,其特征在于
所述词典中的名称包含以下内容中的至少一项:业务名称、产品名称、专利术语、和相关领域的关键词。
12.一种信息识别方法,包括:
根据词典,从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称,作为基础术语;
基于所提取出的基础术语和所述第一非结构化文本,生成术语提取规则;
基于所提取出的基础术语和所生成的术语提取规则,从第二非结构化文本中提取出新的术语;
将所提取出的每个术语映射到词典中最适合的名称,作为所识别出的信息。
13.根据权利要求12所述的信息识别方法,其特征在于
所述第二非结构化文本与所述第一非结构化文本相同或者是所述第一非结构化文本的子集;或者
所述第二非结构化文本与所述第一非结构化文本完全不同或部分不同。
14.根据权利要求12或13所述的信息识别方法,其特征在于
在术语-名称映射步骤中:
基于映射规则,查找术语到名称的映射,得到所述最适合的名称;和/或
基于字符串相似度,找出与所提取出的术语最相似的名称,作为所述最适合的名称。
15.根据权利要求12~14之一所述的信息识别方法,还包括:
以所提取出的术语更新基础术语。
16.根据权利要求15所述的信息识别方法,其特征在于
在对基础术语的更新改变了基础术语的数量的情况下,
基于更新后的基础术语,更新术语提取规则;
基于更新后的术语提取规则,再次从所述第二非结构化文本中提取新的术语;
再次进行术语的映射;以及
再次执行对基础术语的更新,
在对基础术语的更新未改变基础术语的数量的情况下,结束操作。
17.根据权利要求12~16之一所述的信息识别方法,还包括:
在基于所提取出的基础术语和所生成的术语提取规则,未能从第二非结构化文本中提取出新的术语时,基于关键字表,从所述第二非结构化文本中提取名称,作为所识别出的信息。
18.根据权利要求12~17之一所述的信息识别方法,其特征在于
所述第一非结构化文本和所述第二非结构化文本是自然语言形式的文本。
19.根据权利要求12~18之一所述的信息识别方法,其特征在于
所述术语提取规则包括向左扩展规则和向右扩展规则。
20.根据权利要求19所述的信息识别方法,其特征在于
所述生成术语提取规则的步骤包括以下子步骤:
基于基础术语,从所述第一非结构化文本中抽取出包含任一基础术语的句子,形成训练集;
对训练集中的每个训练句子,利用分词工具来分词,得到组成训练句子的各个词及其词性,自动标识每个词的位置标签;
针对训练集中基础术语包含的每个词,抽取向左扩展特征和向右扩展特征;以及
采用机器学习方法,根据所提取出的向左扩展特征,生成向左扩展规则,根据所提取出的向右扩展特征,生成向右扩展规则。
21.根据权利要求19或20所述的信息识别方法,其特征在于
所述从第二非结构化文本中提取出新的术语的步骤包括以下子步骤:
对所述第二非结构化文本中的各个句子,利用分词工具来分词,得到各个词及词性;
在各个句子中,找出基础术语中包含的词,作为术语中心词;
从每个术语中间词开始,按照向左扩展规则和向右扩展规则,进行术语的词扩展;
合并扩展后的词,得到新的术语。
22.根据权利要求12~21之一所述的信息识别方法,其特征在于
所述词典中的名称包含以下内容中的至少一项:业务名称、产品名称、专利术语、和相关领域的关键词。
CN201110077305.9A 2011-03-23 2011-03-23 用于识别非结构化文本中的信息的方法和装置 Active CN102693244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110077305.9A CN102693244B (zh) 2011-03-23 2011-03-23 用于识别非结构化文本中的信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110077305.9A CN102693244B (zh) 2011-03-23 2011-03-23 用于识别非结构化文本中的信息的方法和装置

Publications (2)

Publication Number Publication Date
CN102693244A true CN102693244A (zh) 2012-09-26
CN102693244B CN102693244B (zh) 2015-04-01

Family

ID=46858701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110077305.9A Active CN102693244B (zh) 2011-03-23 2011-03-23 用于识别非结构化文本中的信息的方法和装置

Country Status (1)

Country Link
CN (1) CN102693244B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279506A (zh) * 2013-05-15 2013-09-04 云南电力试验研究院(集团)有限公司电力研究院 一种基于电力技术杂志论文非结构化数据提取的方法
CN103699955A (zh) * 2013-09-06 2014-04-02 安徽科大讯飞信息科技股份有限公司 基于自定义分类规则的业务模型分析方法和装置
CN104375847A (zh) * 2013-08-14 2015-02-25 华为技术有限公司 识别业务类型的方法及装置
CN104794169A (zh) * 2015-03-30 2015-07-22 明博教育科技有限公司 一种基于序列标注模型的学科术语抽取方法及系统
CN106250490A (zh) * 2016-08-01 2016-12-21 乐视控股(北京)有限公司 一种文本基因提取方法、装置及电子设备
CN106815187A (zh) * 2015-11-27 2017-06-09 镇江诺尼基智能技术有限公司 一种高效的新术语识别系统和方法
CN107436895A (zh) * 2016-05-26 2017-12-05 中国移动通信集团云南有限公司 一种非结构化数据识别的方法和装置
CN107871078A (zh) * 2016-09-27 2018-04-03 北京计算机技术及应用研究所 非结构化文本中提取漏洞信息的方法
CN109154940A (zh) * 2016-06-12 2019-01-04 苹果公司 学习新字词
CN109871468A (zh) * 2019-02-01 2019-06-11 国网四川省电力公司广元供电公司 非结构化文档管理与规章制度条目化管理一体化系统
CN110516259A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种技术关键词的识别方法、装置、计算机设备和存储介质
CN113361644A (zh) * 2021-07-03 2021-09-07 上海理想信息产业(集团)有限公司 模型训练方法、电信业务特征信息提取方法、装置及设备
CN113407660A (zh) * 2021-08-16 2021-09-17 中国科学院自动化研究所 非结构化文本事件抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1809830A (zh) * 2003-06-20 2006-07-26 新加坡科技研究局 从大量文档集合中进行术语提取的方法和平台
US7478092B2 (en) * 2005-07-21 2009-01-13 International Business Machines Corporation Key term extraction
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1809830A (zh) * 2003-06-20 2006-07-26 新加坡科技研究局 从大量文档集合中进行术语提取的方法和平台
US7478092B2 (en) * 2005-07-21 2009-01-13 International Business Machines Corporation Key term extraction
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《IBM SYSTEMS JOURNAL》 20011231 T. Nasukawa,T. Nagano "Text analysis and knowledge mining system" 967-984 第40卷, 第4期 *
T. NASUKAWA,T. NAGANO: ""Text analysis and knowledge mining system"", 《IBM SYSTEMS JOURNAL》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279506A (zh) * 2013-05-15 2013-09-04 云南电力试验研究院(集团)有限公司电力研究院 一种基于电力技术杂志论文非结构化数据提取的方法
CN104375847B (zh) * 2013-08-14 2017-12-05 华为技术有限公司 识别业务类型的方法及装置
CN104375847A (zh) * 2013-08-14 2015-02-25 华为技术有限公司 识别业务类型的方法及装置
CN103699955A (zh) * 2013-09-06 2014-04-02 安徽科大讯飞信息科技股份有限公司 基于自定义分类规则的业务模型分析方法和装置
CN103699955B (zh) * 2013-09-06 2017-06-13 科大讯飞股份有限公司 基于自定义分类规则的业务模型分析方法和装置
CN104794169A (zh) * 2015-03-30 2015-07-22 明博教育科技有限公司 一种基于序列标注模型的学科术语抽取方法及系统
CN104794169B (zh) * 2015-03-30 2018-11-20 明博教育科技有限公司 一种基于序列标注模型的学科术语抽取方法及系统
CN106815187A (zh) * 2015-11-27 2017-06-09 镇江诺尼基智能技术有限公司 一种高效的新术语识别系统和方法
CN107436895A (zh) * 2016-05-26 2017-12-05 中国移动通信集团云南有限公司 一种非结构化数据识别的方法和装置
CN107436895B (zh) * 2016-05-26 2020-12-04 中国移动通信集团云南有限公司 一种非结构化数据识别的方法和装置
CN109154940A (zh) * 2016-06-12 2019-01-04 苹果公司 学习新字词
CN109154940B (zh) * 2016-06-12 2022-04-19 苹果公司 学习新字词
CN106250490A (zh) * 2016-08-01 2016-12-21 乐视控股(北京)有限公司 一种文本基因提取方法、装置及电子设备
CN107871078A (zh) * 2016-09-27 2018-04-03 北京计算机技术及应用研究所 非结构化文本中提取漏洞信息的方法
CN109871468A (zh) * 2019-02-01 2019-06-11 国网四川省电力公司广元供电公司 非结构化文档管理与规章制度条目化管理一体化系统
CN110516259A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种技术关键词的识别方法、装置、计算机设备和存储介质
CN110516259B (zh) * 2019-08-30 2023-03-07 盈盛智创科技(广州)有限公司 一种技术关键词的识别方法、装置、计算机设备和存储介质
CN113361644A (zh) * 2021-07-03 2021-09-07 上海理想信息产业(集团)有限公司 模型训练方法、电信业务特征信息提取方法、装置及设备
CN113361644B (zh) * 2021-07-03 2024-05-14 上海理想信息产业(集团)有限公司 模型训练方法、电信业务特征信息提取方法、装置及设备
CN113407660A (zh) * 2021-08-16 2021-09-17 中国科学院自动化研究所 非结构化文本事件抽取方法

Also Published As

Publication number Publication date
CN102693244B (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN102693244B (zh) 用于识别非结构化文本中的信息的方法和装置
WO2022022045A1 (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
US8370128B2 (en) Semantically-driven extraction of relations between named entities
CN107729480B (zh) 一种限定区域的文本信息抽取方法及装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN101361065B (zh) 分布式模型的编码和自适应、可扩展访问
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US8781817B2 (en) Phrase based document clustering with automatic phrase extraction
US20120290288A1 (en) Parsing of text using linguistic and non-linguistic list properties
CN111967242A (zh) 一种文本信息的抽取方法、装置及设备
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
US20180060314A1 (en) Multibyte heterogeneous log preprocessing
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
Döhmen et al. Multi-hypothesis CSV parsing
Al‐Shawakfa et al. A comparison study of some Arabic root finding algorithms
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
Inkpen et al. Detecting and disambiguating locations mentioned in Twitter messages
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN101308512A (zh) 一种基于网页的互译翻译对抽取方法及装置
Xu et al. Using SVM to extract acronyms from text
Yan et al. Chemical name extraction based on automatic training data generation and rich feature set
CN110232080A (zh) 一种基于区块链的快速检索方法
CN101425087A (zh) 构建词典的方法和系统
CN111581950B (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180103

Address after: 100190 Zhongguancun street, Haidian District, Beijing, No. 18, block B, block 18

Patentee after: Data Hall (Beijing) Polytron Technologies Inc

Address before: 100191 Haidian District, Xueyuan Road, No. 35, the world building, the second floor of the building on the ground floor, No. 20

Patentee before: NEC (China) Co., Ltd.