CN109344393B - 一种主干语句的提取方法及系统 - Google Patents

一种主干语句的提取方法及系统 Download PDF

Info

Publication number
CN109344393B
CN109344393B CN201810995542.5A CN201810995542A CN109344393B CN 109344393 B CN109344393 B CN 109344393B CN 201810995542 A CN201810995542 A CN 201810995542A CN 109344393 B CN109344393 B CN 109344393B
Authority
CN
China
Prior art keywords
stem
target
text
sentence
backbone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810995542.5A
Other languages
English (en)
Other versions
CN109344393A (zh
Inventor
王星光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201810995542.5A priority Critical patent/CN109344393B/zh
Publication of CN109344393A publication Critical patent/CN109344393A/zh
Application granted granted Critical
Publication of CN109344393B publication Critical patent/CN109344393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种主干语句的提取方法及系统,其中,所述方法包括:构建非主干信息模式库,所述非主干信息模式库中包括多个非主干信息项,所述非主干信息项包括一个非主干文本,及其关联的若干约束模式;获取待处理的目标语句,并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征;根据针对所述目标语句的识别结果,从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本;判断所述目标非主干文本是否需要被标记为非主干成分,并根据判断结果,提取所述目标语句中的主干语句。本申请提供的技术方案,能够提高主干语句的提取精度。

Description

一种主干语句的提取方法及系统
技术领域
本发明涉及语句处理技术领域,特别涉及一种主干语句的提取方法及系统。
背景技术
目前,为了简化对话系统中的语句,通常会提取对话中的主干语句。现有对话系统的主干语句的提取方法通常是抽取出句子的主谓宾句法成分,再将抽取出的成分组成新的语句,参与到对话系统的语义理解当中去。
然而,现有方案中,主干提取之后的句子丢失了语义信息,与原句可能存在语义不一致性,甚至可能会出现逻辑错误。例如,句子「爸爸的爸爸是爷爷」中,抽取句法主干成分是「爸爸是爷爷」,从而会造成对话系统的语义理解偏差甚至是谬误。
发明内容
本申请的目的在于提供一种主干语句的提取方法及系统,能够提高主干语句的提取精度。
为实现上述目的,本申请提供一种主干语句的提取方法,所述方法包括:构建非主干信息模式库,所述非主干信息模式库中包括多个非主干信息项,所述非主干信息项包括一个非主干文本,及其关联的若干约束模式;获取待处理的目标语句,并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征;根据针对所述目标语句的识别结果,从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本;判断所述目标非主干文本是否需要被标记为非主干成分,并根据判断结果,提取所述目标语句中的主干语句。
进一步地,判断所述目标非主干文本是否需要被标记为非主干成分包括:
若所述目标非主干文本不具备关联的约束模式,将所述目标非主干文本标记为非主干成分。
进一步地,所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式;
相应地,判断所述目标非主干文本是否需要被标记为非主干成分包括:
判断与所述目标非主干文本关联的约束模式在所述目标语句中是否均满足,若均满足,将所述目标非主干文本标记为非主干成分。
进一步地,根据判断结果,提取所述目标语句中的主干语句包括:
将所述目标语句中标记为非主干成分的目标非主干文本删除,得到所述目标语句的主干语句。
进一步地,在识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征之后,所述方法还包括:
将所述目标语句中所述命名实体特征指向的名词用实体标签替代,得到替代语句;
相应地,从所述替代语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本。
进一步地,在提取所述目标语句中的主干语句之后,所述方法还包括:
将所述主干语句中的实体标签还原为对应的实体名词。
为实现上述目的,本申请还提供一种主干语句的提取系统,所述系统包括:非主干信息模式库构建单元,用于构建非主干信息模式库,所述非主干信息模式库中包括多个非主干信息项,所述非主干信息项包括一个非主干文本,及其关联的若干约束模式;特征识别单元,用于获取待处理的目标语句,并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征;非主干文本匹配单元,用于根据针对所述目标语句的识别结果,从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本;主干语句提取单元,用于判断所述目标非主干文本是否需要被标记为非主干成分,并根据判断结果,提取所述目标语句中的主干语句。
进一步地,所述主干语句提取单元包括:
标记模块,用于若所述目标非主干文本不具备关联的约束模式,将所述目标非主干文本标记为非主干成分。
进一步地,所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式;
相应地,所述主干语句提取单元包括:
约束模式判断模块,用于判断与所述目标非主干文本关联的约束模式在所述目标语句中是否均满足,若均满足,将所述目标非主干文本标记为非主干成分。
进一步地,所述主干语句提取单元包括:
非主干文本删除模块,用于将所述目标语句中标记为非主干成分的目标非主干文本删除,得到所述目标语句的主干语句。
由上可见,与传统的句法主干提取方法相比,本申请提供的技术方案,保持了语义一致性,避免了文本缩减过程中可能的语义理解偏差或语义谬误。此外,通过缩减文本,减轻了句子中非关键文本带来的理解负担,提高语义理解引擎的准确性。再者,本申请中的主干语句的提取方法,是基于规则的提取方法,因此可以成本较低地做到领域规则定制与快速实施。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中主干语句的提取方法的流程图;
图2为本发明实施例中主干语句的提取系统的功能模块图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
请参阅图1,本申请提供一种主干语句的提取方法,所述方法包括:
S1:构建非主干信息模式库,所述非主干信息模式库中包括多个非主干信息项,所述非主干信息项包括一个非主干文本,及其关联的若干约束模式;
S2:获取待处理的目标语句,并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征;
S3:根据针对所述目标语句的识别结果,从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本;
S4:判断所述目标非主干文本是否需要被标记为非主干成分,并根据判断结果,提取所述目标语句中的主干语句。
在一个实施方式中,判断所述目标非主干文本是否需要被标记为非主干成分包括:
若所述目标非主干文本不具备关联的约束模式,将所述目标非主干文本标记为非主干成分。
在一个实施方式中,所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式;
相应地,判断所述目标非主干文本是否需要被标记为非主干成分包括:
判断与所述目标非主干文本关联的约束模式在所述目标语句中是否均满足,若均满足,将所述目标非主干文本标记为非主干成分。
在一个实施方式中,根据判断结果,提取所述目标语句中的主干语句包括:
将所述目标语句中标记为非主干成分的目标非主干文本删除,得到所述目标语句的主干语句。
在一个实施方式中,在识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征之后,所述方法还包括:
将所述目标语句中所述命名实体特征指向的名词用实体标签替代,得到替代语句;
相应地,从所述替代语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本。
在一个实施方式中,在提取所述目标语句中的主干语句之后,所述方法还包括:
将所述主干语句中的实体标签还原为对应的实体名词。
在一个具体的应用实例中,本申请的技术方案可以按照以下步骤执行:
第1步:构建非主干信息模式库。非主干信息模式库由多个非主干信息项构成。一个非主干信息项包含一个非主干文本,以及零到多个约束模式。非主干文本是指句子中连续出现的非主干词序列,是句子中潜在的待删除内容;约束模式描述了非主干文本在句中的位置、或者是其上下文的特征序列模式(词汇序列、词性/命名实体序列,或者混合序列)。若一个句子中潜在的非主干文本的约束模式均被激活,则该非主干文本在句中被标记为非主干成分;若非主干文本的约束模式数为零,则出现在句子中的非主干文本默认被激活。
第2步:将输入的句子(假设该句子记为S)进行自然语义分析,解析出句子的词汇序列特征、词性序列特征、命名实体特征。
第3步:将句子S中的命名实体词用命名实体标签替代,得到句子P。
第4步:将句子P从左向右扫描,若遇到一段连续词汇匹配到了非主干信息模式库的一个非主干文本,则转向第5步;否则转向第6步。
第5步:当该非主干文本的约束模式数为零,则句子P中相应被匹配到的词汇序列被标记为非主干成分;当该非主干文本的约束模式数大于零,则检查是否所有的约束模式在句子中均被满足,若约束模式均被满足,则句子P中相应被匹配到的词汇序列被标记为非主干成分。继续转向第4步。
第6步:将句子P中标记为非主干的所有词汇删除,并将剩余句中的命名实体标签还原成命名实体词,得到句子F。句子F即提取的语义主干。
具体的,非主干信息模式库可以表示为:
信息项1:非主干文本=「那」,约束模式={位置=句首}
信息项2:非主干文本=「你」,约束模式={右侧词汇序列=能不能|可不可以|能否|...}
信息项3:非主干文本=「给我」,约束模式={右侧词性序列=动词}
信息项4:非主干文本=「谢谢」,约束模式={位置=句末}
信息项5:非主干文本=「能不能」,约束模式=空
信息项6:非主干文本=「呀」,约束模式=空
下面描述一个具体的应用实例:
输入句子S:
那你能不能给我播放一首刘某某的来生缘呀谢谢。
分词与词性标注:
那/c 你/r 能/v 不/d 能/v 给/v 我/r播放/v一/m 首/q 刘某某/nh 的/u 来生/b 缘/n 呀/u 谢谢/v
命名实体识别:
刘某某-> %singer%,来生缘 –> %song%
句子P:
那你能不能给我播放一首%singer%的%song%呀谢谢。
标记非主干成分:
那/非主干 你/非主干 能不能/非主干 给我/非主干 播放 一首 %singer% 的 %song% 呀/非主干 谢谢/非主干
得到句子F:
播放一首刘某某的来生缘。
上述词性标注的过程中,c表示连词,r表示代词,v表示动词,d表示副词,m表示数词,q表示量词,nh表示实体名词,u表示助词,b表示区别词,n表示名词。
上述命名实体识别的过程中,%singer%表示歌手实体名词,%song%表示歌曲实体名词。
请参阅图2,本申请还提供一种主干语句的提取系统,所述系统包括:
非主干信息模式库构建单元,用于构建非主干信息模式库,所述非主干信息模式库中包括多个非主干信息项,所述非主干信息项包括一个非主干文本,及其关联的若干约束模式;
特征识别单元,用于获取待处理的目标语句,并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征;
非主干文本匹配单元,用于根据针对所述目标语句的识别结果,从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本;
主干语句提取单元,用于判断所述目标非主干文本是否需要被标记为非主干成分,并根据判断结果,提取所述目标语句中的主干语句。
在一个实施方式中,所述主干语句提取单元包括:
标记模块,用于若所述目标非主干文本不具备关联的约束模式,将所述目标非主干文本标记为非主干成分。
在一个实施方式中,所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式;
相应地,所述主干语句提取单元包括:
约束模式判断模块,用于判断与所述目标非主干文本关联的约束模式在所述目标语句中是否均满足,若均满足,将所述目标非主干文本标记为非主干成分。
在一个实施方式中,所述主干语句提取单元包括:
非主干文本删除模块,用于将所述目标语句中标记为非主干成分的目标非主干文本删除,得到所述目标语句的主干语句。
由上可见,与传统的句法主干提取方法相比,本申请提供的技术方案,保持了语义一致性,避免了文本缩减过程中可能的语义理解偏差或语义谬误。此外,通过缩减文本,减轻了句子中非关键文本带来的理解负担,提高语义理解引擎的准确性。再者,本申请中的主干语句的提取方法,是基于规则的提取方法,因此可以成本较低地做到领域规则定制与快速实施。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种主干语句的提取方法,其特征在于,所述方法包括:
构建非主干信息模式库,所述非主干信息模式库中包括多个非主干信息项,所述非主干信息项包括一个非主干文本,及其关联的若干约束模式;
获取待处理的目标语句,并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征;
根据针对所述目标语句的识别结果,从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本;
判断所述目标非主干文本是否需要被标记为非主干成分,并根据判断结果,提取所述目标语句中的主干语句;
判断所述目标非主干文本是否需要被标记为非主干成分包括:
若所述目标非主干文本不具备关联的约束模式,将所述目标非主干文本标记为非主干成分;
根据判断结果,提取所述目标语句中的主干语句包括:
将所述目标语句中标记为非主干成分的目标非主干文本删除,得到所述目标语句的主干语句。
2.根据权利要求1所述的方法,其特征在于,所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式;
相应地,判断所述目标非主干文本是否需要被标记为非主干成分包括:
判断与所述目标非主干文本关联的约束模式在所述目标语句中是否均满足,若均满足,将所述目标非主干文本标记为非主干成分。
3.根据权利要求1所述的方法,其特征在于,在识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征之后,所述方法还包括:
将所述目标语句中所述命名实体特征指向的名词用实体标签替代,得到替代语句;
相应地,从所述替代语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本。
4.根据权利要求3所述的方法,其特征在于,在提取所述目标语句中的主干语句之后,所述方法还包括:
将所述主干语句中的实体标签还原为对应的实体名词。
5.一种主干语句的提取系统,其特征在于,所述系统包括:
非主干信息模式库构建单元,用于构建非主干信息模式库,所述非主干信息模式库中包括多个非主干信息项,所述非主干信息项包括一个非主干文本,及其关联的若干约束模式;
特征识别单元,用于获取待处理的目标语句,并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征;
非主干文本匹配单元,用于根据针对所述目标语句的识别结果,从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本;
主干语句提取单元,用于判断所述目标非主干文本是否需要被标记为非主干成分,并根据判断结果,提取所述目标语句中的主干语句;
标记模块,用于若所述目标非主干文本不具备关联的约束模式,将所述目标非主干文本标记为非主干成分;
所述主干语句提取单元包括:
非主干文本删除模块,用于将所述目标语句中标记为非主干成分的目标非主干文本删除,得到所述目标语句的主干语句。
6.根据权利要求5所述的系统,其特征在于,所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式;
相应地,所述主干语句提取单元包括:
约束模式判断模块,用于判断与所述目标非主干文本关联的约束模式在所述目标语句中是否均满足,若均满足,将所述目标非主干文本标记为非主干成分。
CN201810995542.5A 2018-08-29 2018-08-29 一种主干语句的提取方法及系统 Active CN109344393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810995542.5A CN109344393B (zh) 2018-08-29 2018-08-29 一种主干语句的提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810995542.5A CN109344393B (zh) 2018-08-29 2018-08-29 一种主干语句的提取方法及系统

Publications (2)

Publication Number Publication Date
CN109344393A CN109344393A (zh) 2019-02-15
CN109344393B true CN109344393B (zh) 2023-04-07

Family

ID=65296801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810995542.5A Active CN109344393B (zh) 2018-08-29 2018-08-29 一种主干语句的提取方法及系统

Country Status (1)

Country Link
CN (1) CN109344393B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597976B (zh) * 2019-09-16 2022-11-15 北京金山数字娱乐科技有限公司 一种关键句提取方法及装置
CN111048073B (zh) * 2019-12-16 2022-08-12 北京明略软件系统有限公司 一种音频处理方法、装置、电子设备及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
JP5172308B2 (ja) * 2007-12-11 2013-03-27 日本電信電話株式会社 テキスト整形規則獲得装置、構造判定装置、それらのプログラム
CN101261690A (zh) * 2008-04-18 2008-09-10 北京百问百答网络技术有限公司 一种问题自动生成的系统及其方法
US9244909B2 (en) * 2012-12-10 2016-01-26 General Electric Company System and method for extracting ontological information from a body of text
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN105955963A (zh) * 2016-05-25 2016-09-21 北京谛听机器人科技有限公司 一种机器人问答交互开放平台及交互方法
CN107562728A (zh) * 2017-09-12 2018-01-09 电子科技大学 基于结构和文本信息的社交媒体短文本过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文法简化和语句深度的静态结构模型嵌入式软件分析;李祯祥;《计算机科学》;20161130;第43卷(第11期);第490页至第494页 *

Also Published As

Publication number Publication date
CN109344393A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US8266169B2 (en) Complex queries for corpus indexing and search
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
US8510097B2 (en) Region-matching transducers for text-characterization
US20100161313A1 (en) Region-Matching Transducers for Natural Language Processing
US20090222395A1 (en) Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction
US20190050478A1 (en) Discrepancy Handler for Document Ingestion into a Corpus for a Cognitive Computing System
CN110119510B (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
US20110040553A1 (en) Natural language processing
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
CN100429648C (zh) 一种文本自动分块的方法、分块器和文本到语言合成系统
Copestake et al. An architecture for language processing for scientific texts
CN109344393B (zh) 一种主干语句的提取方法及系统
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
Küçük Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
Tufiş et al. DIAC+: A professional diacritics recovering system
Nooralahzadeh et al. Part of speech tagging for french social media data
US20220366135A1 (en) Extended open information extraction system
CN113963804A (zh) 医学数据关系挖掘方法及装置
JPS6118072A (ja) 辞書デ−タの自動登録方式
Hakkani-Tür et al. Morphological disambiguation for Turkish
Fachrurrozi et al. Identification of Ambiguous Sentence Pattern in Indonesian Using Shift-Reduce Parsing
JPS63228326A (ja) キ−ワ−ド自動抽出方式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096

Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: A503, 5th Floor, Mudan Science and Technology Building, No. 2 Huayuan Road, Haidian District, Beijing, 100000

Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address