CN110162617B - 提取摘要信息的方法、装置、语言处理引擎和介质 - Google Patents

提取摘要信息的方法、装置、语言处理引擎和介质 Download PDF

Info

Publication number
CN110162617B
CN110162617B CN201811150949.4A CN201811150949A CN110162617B CN 110162617 B CN110162617 B CN 110162617B CN 201811150949 A CN201811150949 A CN 201811150949A CN 110162617 B CN110162617 B CN 110162617B
Authority
CN
China
Prior art keywords
entity
target text
pointer
character
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811150949.4A
Other languages
English (en)
Other versions
CN110162617A (zh
Inventor
侯皓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811150949.4A priority Critical patent/CN110162617B/zh
Publication of CN110162617A publication Critical patent/CN110162617A/zh
Application granted granted Critical
Publication of CN110162617B publication Critical patent/CN110162617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种提取摘要信息的方法、装置、语言处理引擎和介质。该方法包括:获取目标文本;在所述目标文本之前和之后分别设置指针和结束符;将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息。本公开实施例提高了从目标文本中提取摘要信息的准确率。

Description

提取摘要信息的方法、装置、语言处理引擎和介质
技术领域
本公开涉及信息技术领域,具体涉及一种从目标文本中提取摘要信息的方法、装置、语言处理引擎和计算机程序介质。
背景技术
目前,在信息技术领域,经常需要从目标文本中提取摘要信息。例如,从实体全称中提取实体简称,从会议中用户的语音识别的文本中识别出会议纪要,从网页文本中识别出网页文本的摘要。这种摘要信息的提取的特点是,提取的摘要信息的每个字符都在目标文本中,需要从中提取出来,不需要在目标文本之外寻找其他字符。例如,实体简称的每个字符都在实体全称中,只不过需要从中提取出来。
现有技术中,从目标文本中提取摘要信息一般通过以下方式实现:按照预定规则的集合,从目标文本中提取候选摘要信息;然后,判断候选摘要信息是否在目标文本的上下文中出现,如出现,则认为该候选摘要信息是要提取的摘要信息。例如,从实体全称中提取实体简称可以按照如下预定规则的集合进行:
规则1.取实体全称中每个词的首字如:云南天然气化工厂——云天化;
规则2.若实体全称中出现专有名词,取该专有名词,如:美国耐克公司——耐克
规则3.若实体全称以地点开始,取地点+其他词的首字,如:上海交通大学——上海交大
规则4.取实体全称中除地点和机构称谓的所有词的首字,如:中国南方航空公司——南方航空
规则5.取实体全称中除地点和机构称谓的所有词的首字,如:中国南方航空公司——南航
规则6.取除机构称谓之外的其他词的首字+机构称谓,如:交通银行总部——交行总部
基于以上规则的集合,从目标文本中可以提取若干候选摘要信息,例如从实体全称中提取若干候选实体简称,如:
根据规则3,从“云南天然气化工厂”提取“云南天化”;
根据规则1,从“云南天然气化工厂”提取“云天化”。
然后,判断候选摘要信息是否在目标文本的上下文中出现,如出现,则认为该候选摘要信息是要提取的摘要信息。例如,“云南天化”、“云天化”都是候选摘要信息,其中“云南天化”在“云南天然气化工厂”的上下文中未出现,“云天化”在“云南天然气化工厂”的上下文中出现,因此,可以认为“云天化”是要提取的实体简称。
由于现有技术的从目标文本中提取摘要信息的方法依赖于预定规则的集合,预定规则的集合很难做到穷举,因此,现有技术的方法准确率低。
发明内容
本公开的一个目的在于提高从目标文本中提取摘要信息的准确率。
根据本公开实施例的第一方面,公开了一种从目标文本中提取摘要信息的方法,包括:
获取目标文本;
在所述目标文本之前和之后分别设置指针和结束符;
将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;
将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息。
根据本公开实施例的第二方面,公开了一种从目标文本中提取摘要信息的装置,包括:
目标文本获取单元,用于获取目标文本;
设置单元,用于在所述目标文本之前和之后分别设置指针和结束符;
指针位置预测单元,用于将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;
摘要信息生成单元,用于将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息。
根据本公开实施例的第三方面,公开了一种语言处理引擎,包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行如上所述的方法。
根据本公开实施例的第四方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的方法。
现有技术的从目标文本中提取摘要信息的方法依赖于预定规则的集合,预定规则的集合很难做到穷举,因此,现有技术的方法准确率低。本公开实施例不依赖于对预定规则的人为设定,而是,通过机器学习模型输出摘要信息,消除了预定规则的人为设定对提取准确率造成的影响。另外,摘要信息的提取的特点是,提取的摘要信息的每个字符都在目标文本中,需要从中提取出来,不需要在目标文本之外寻找其他字符。因此,本公开实施例采用了一个带指针的机器学习模型,将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符,将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息。用指针的方式对于摘要信息的每个字符完全在目标文件中生成的情形来说,比起不用指针的盲目提取,大大提高了提取摘要信息的效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1A-C分别示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用的3种场景的系统构架图,其中,图1A示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在从实体全称中识别实体简称的场景的系统构架图;图1B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在会议纪要生成的场景的系统构架图;图1C示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在网页文本自动摘要生成和搜索的场景的系统构架图。
图2A-2B、3A-3B、4A-4B分别示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在从实体全称中识别实体简称的三种不同子场景的界面状态图,其中,图2A-2B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在实体简称查询应用的界面状态图,该实体简称查询应用的功能是响应于用户输入一个实体全称,就能为用户给出对应的实体简称;图3A-3B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在实体名称消岐工具中的界面状态图,该消岐工具旨在消除文章中由于实体全称和简称混用、已经不同实体简称混用给用户带来的歧义;图4A-4B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在错误简称消除工具中的界面状态图,该错误简称消除工具旨在消除文章中的错误的实体简称可能给用户带来的误解。
图5A-5B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在会议纪要生成的场景的界面状态图。
图6A-6B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在网页文本自动摘要生成和搜索的界面状态图。
图7示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法的流程图。
图8示出了根据本公开一示例实施方式的机器学习模型训练方法的流程图。
图9示出了根据本公开一示例实施方式的预测所述目标文本中所述指针的当前位置之后指向的下一个位置的具体方法流程图。
图10示出了根据本公开一示例实施方式的步骤210的详细流程图。
图11示出了根据本公开一示例实施方式的预定规则的详细流程图。
图12示出了根据本公开一示例实施方式的步骤21024的详细流程图。
图13示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法的流程图。
图14示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法的流程图。
图15示出了根据本公开一示例实施方式的步骤240的详细流程图。
图16示出了根据本公开一示例实施方式的步骤2402的详细流程图。
图17示出了根据本公开一示例实施方式的预定规则的详细流程图。
图18示出了根据本公开一示例实施方式的步骤210的详细流程图。
图19示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法的流程图。
图20示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法的流程图。
图21示出了根据本公开一示例实施方式的门控循环单元GRU的内部结构图。
图22示出了根据本公开一示例实施方式的从实体全称中提取出实体简称的示意图。
图23A-23E示出了根据本公开一示例实施方式的由机器学习模型预测指针指向的下一个位置的状态变化图。
图24示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的装置的框图。
图25示出了根据本公开一示例实施方式的语言处理引擎的硬件结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
下面,首先参照图1A的系统构架图、以及图2A-2B、3A-3B、4A-4B的界面状态图,来描述根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法的第一种应用场景,即从实体全称中识别实体简称。这种应用场景又可分为三种子场景,即实体简称查询应用、实体名称消岐工具、错误简称消除工具。
实体简称查询应用的功能是响应于用户输入一个实体全称,就能为用户给出对应的实体简称。实体名称消岐工具旨在消除文章中由于实体全称和简称混用、已经不同实体简称混用给用户带来的歧义。错误简称消除工具旨在消除文章中的错误的实体简称可能给用户带来的误解。
图2A-2B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在实体简称查询应用的界面状态图。
图2A示出了实体简称查询应用的供用户输入实体全称的查询界面。用户获得实体简称查询应用后,打开该实体简称查询应用,进入图2A所示的界面,在界面上的实体全称输入框中输入要查询的企业全称。触摸“确定”按钮,开始查询该实体的简称。如图2A所示,用户在实体全称输入框中输入“云南天然气化工厂”。
图2B示出了向用户反馈实体简称的界面。在界面上指出用户输入的实体全称对应的实体简称,例如“云天化”。在界面上还有一个“返回”按钮。用户触摸“返回”按钮后,返回图2A所示的界面,用户可以查询其它实体全称对应的实体简称。
图3A-3B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在实体名称消岐工具中的界面状态图。
图3A示出了实体名称消岐工具的展示需要消岐的段落的界面。用户获得该实体名称消岐工具后,打开该工具,然后可以将需要消岐的段落写入或拷贝到界面。例如,用户打开实体名称消岐工具,出现一个待消岐文本框。将需要消岐的段落人工输入待消岐文本框。或者,用户将需要消岐的段落通过字处理软件中的拷贝的方式拷贝到待消岐文本框中。或者,界面上出现一个文档选择框,用户通过该文档选择框选择需要消岐的文档,然后文档中的段会按照文档中的段落顺序顺次显示在图3A上,供用户选择是否消岐。如果用户触摸“消岐”按钮,将对需要消岐的段落进行实体名称消岐。实体名称消岐就是消除文章中由于实体全称和简称混用、已经不同实体简称混用给用户带来的歧义,例如,将所有实体简称都统一成实体全称。
图3B示出了实体名称消岐工具的消岐结果。如图3B所示,为了防止图3A的段落中的简称“云天化”和全称“云南天然气化工厂”被读者认为是两个不同的实体,将其都统一为全称“云南天然气化工厂”。在图3B中,有两个选项按钮,即“确认”和“取消”。如果用户触摸“确认”按钮,则接受这种消岐。如果用户触摸“取消”按钮,则拒绝这种消岐。
图4A-4B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在错误简称消除工具中的界面状态图。
图4A示出了错误简称消除工具的展示需要进行错误简称消除的段落的界面。由于一些作者对实体的简称缺乏了解,有时会按自己的语言习惯对实体的全称进行简写,该简写有时与实体的真正简称不一致,导致了解该真正简称的用户很困惑,不知道该简写是否是该实体,因此,需要对错误的实体简称进行纠正。用户获得该错误简称消除工具后打开该工具,将需要消除错误简称的段落写入或拷贝到界面。例如,用户打开错误简称消除工具,出现一个待消除错误文本框。将需要消除错误的段落人工输入待消除错误文本框。或者,用户将需要消除错误的段落通过字处理软件中的拷贝的方式拷贝到待消除错误文本框中。或者,界面上出现一个文档选择框,用户通过该文档选择框选择需要消除错误的文档,然后文档中的段会按照文档中的段落顺序顺次显示在图4A上,供用户选择是否消除错误。如果用户触摸“消除错误简称”按钮,将对需要消除错误简称的段落进行错误消除。错误简称消除就是消除文章中简写错误的实体简称,避免其带来的混淆。例如,将所有错误的实体简称都统一成正确的实体简称。
图4B示出了错误简称消除工具的错误消除结果。图4A的段落中的“云天化”是正确的简称,“云南天然气”、“云南天然化工”是错误的简称。在图4B的界面上,“云南天然气”、“云南天然化工”都统一成“云天化”。在图4B中,有两个选项按钮,即“确认”和“返回”。如果用户触摸“确认”按钮,则接受这种错误简称的纠正。如果用户触摸“返回”按钮,则拒绝这种纠正,返回到图4A所示的界面。
图1A示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在从实体全称中识别实体简称的场景的系统构架图。该构架包括用户终端104、语言处理引擎103、互联网101、企业局域网文档库102。
用户终端104安装实体简称查询应用、或实体名称消岐工具、或错误简称消除工具,利用这些应用或工具输入待查询的实体全称、或待消岐文档、或待消除错误的文档,这些应用或工具与连接互联网101的语言处理引擎103通信,由语言处理引擎103向这些应用或工具返回对实体全称对应的实体简称、消岐之后的文档、消除错误简称之后的文档。语言处理引擎103包括有机器学习模型,其需要不断在实践中利用互联网101上的新的实体全称和实体简称的样本进行训练,以不断改进该机器学习模型,使得机器学习模型能够适应网络上不断出现的新语言模式,总结出从实体全称到实体简称的新特点。而互联网上的新的实体全称和实体简称的样本来源于企业局域网文档库102不断的上报和信息收集。通过图1A的构架,形成了能够适应网络时代的不断发展的语言环境的实体简称识别并利用的网络环境。
用户终端210是可以是任何能够上网的终端,包括台式电脑、手机、PDA、笔记本电脑、车载设备等。语言处理引擎103是本公开实施例的核心部件,是从目标文本中提取摘要信息的执行部件。其可以由单台计算机或单台计算机的一部分作为虚拟机而实现。其也可以由多台联网的计算机各自一部分联合实现。例如,它可以采用虚拟机集群的形式,即从多台物理机上分别划分出一部分作为虚拟机,集体行使语言处理引擎103的功能。企业局域网文档库102是企业网内部的数据库。
图5A-5B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在会议纪要生成的界面状态图。该会议纪要主要从会议记录生成。会议记录是会议中的用户的语言原原本本转换成的文本,会议纪要是从会议记录中提取的能够代表会议的主要内容的概括式总结。在本公开实施例中,会议纪要中的每个字符都存在于会议记录中。
图5A示出了随着会议的进行而在屏幕上显示的会议记录界面。它随着识别出的会议中的用户的语言而实时记录,即用户说一句话,记录一句话。在会议结束后,主持人触摸图5A中的“生成会议纪要”按钮,生成会议纪要。
图5B显示上述生成的会议纪要。在图5B中,有“确认”和“取消”按钮。如果触摸“确认”按钮,则保存显示的会议纪要。如果用户触摸“取消”按钮,则不保存显示的会议纪要,回到图5A所示的会议记录界面。
图1B示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在会议纪要生成的场景的系统构架图。该构架包括屏幕105、会议视音频采集设备107、语言处理引擎103。会议视音频采集设备107还可以带摄像头106,在除了采集与会的用户108的声音之外,还采集用户108的视频。会议视音频采集设备107收集用户108开会时的讲话声音,将其发送到语言处理引擎103。语言处理引擎103将用户108的声音转化成文本,并从中获取会议纪要。屏幕105上,如图5A所示,在开会时随着用户108说话,显示用户108的声音转换成的文本,即会议记录。在会议结束后,主持人触摸图5A中的“生成会议纪要”按钮,出现图5B所示的会议纪要界面。
图6A-6B示出了根据本公开一示例实施方式的一种为网页文本生成摘要的界面状态图。网页文本是指互联网上存在网上的文章、发言、评论等所有由文字组成的素材。在用户浏览网页文本的时候,由于互联网上存在大量的文本,用户往往希望能快速抓住网页文本内容的核心,而用户自己贴的标签或摘要有时为了获得点击率,往往采用一些夸大和误导性的词汇。为了提高网页文本摘要的真实性,本公开实施例可以不让用户自己贴标签或摘要,而采用自动为网页文本生成摘要的形式,保证摘要的客观性。摘要的每个字符都出自于网页文本,只不过将它们提取出来而已。这样,当用户的鼠标停留在网页文本上或者用户的手指停留在网页文本上时,为用户显示该网页文本的摘要,这样,用户不需要将网页文本看完就可以快速知晓其内容。另外,在搜索者利用关键词搜索时,可以利用搜索者的搜索关键词与生成的摘要进行匹配,从而利用这种摘要准确地为搜索者显示搜索结果,避免了网页文本的作者自己生成摘要带来的搜索结果不准确的缺点。
图6A示出了显示互联网上的网页文本111的界面。如图6A所示,由于每个网页文本111过长,因此,每个网页文本111只显示了开头部分。然而,开头部分并不足以使读者快速了解整个网页文本的核心内容。因此,如图6B所示,用户的鼠标停留在网页文本111上或者用户的手指停留在网页文本111上时,在该开头部分的旁边显示为该网页文本生成的摘要112,该摘要112也可以部分覆盖住该开头部分。
另外,在用户通过互联网上的搜索引擎进行关键词搜索时,可以利用用户输入的搜索关键词与图6B所示生成的摘要进行匹配。一旦搜索关键词与摘要匹配,将相应的网页文本作为一个搜索结果。当用户的鼠标停留在作为搜索结果的网页文本上或者用户的手指停留在该作为搜索结果的网页文本上时,在该网页文本的旁边同样显示该摘要。
图1C示出了根据本公开一示例实施方式的一种从目标文本中提取摘要信息的方法应用在从网页文本生成摘要的场景的系统构架图。该构架包括用户终端104、语言处理引擎103、互联网101。互联网101包括搜索引擎109和内容服务器110。
内容服务器110是维护网页文本的内容的服务器,例如新浪网站上的一个新闻,新浪网站服务器就是维护其内容的服务器。其可以由单台计算机实现,也可以由多台联网的计算机实现,也可以由多台联网的计算机的各自一部分联合实现。例如,它可以采用虚拟机集群的形式,即从多台物理机上分别划分出一部分作为虚拟机,集体行使内容服务器110的功能。
搜索引擎109本身不提供网页文本的内容,仅提供到相应网页文本的链接。用户输入搜索关键词,搜索引擎109将用户输入的关键词与各内容服务器提供的网页文本按各种规则进行匹配。如果匹配,搜索引擎109将匹配的网页文本的链接作为搜索结果,显示在用户终端104上。用户如果选择该搜索结果,点开链接进入相应的网页文本。其可以由单台计算机实现,也可以由多台联网的计算机实现,也可以由多台联网的计算机的各自一部分联合实现。例如,它可以采用虚拟机集群的形式,即从多台物理机上分别划分出一部分作为虚拟机,集体行使搜索引擎109的功能。
语言处理引擎103是本公开实施例的核心部分。内容服务器110先将要在互联网上展示的网页文本发送给语言处理引擎103生成摘要。语言处理引擎103将生成的摘要发送回内容服务器110,以便在用户的鼠标停留在网页文本111上或者用户的手指停留在网页文本111上时,在该网页文本111的旁边显示为该网页文本生成的摘要112。其可以由单台计算机实现,也可以由多台联网的计算机实现,也可以由多台联网的计算机的各自一部分联合实现。例如,它可以采用虚拟机集群的形式,即从多台物理机上分别划分出一部分作为虚拟机,集体行使语言处理引擎103的功能。
用户终端104可以是任何能够上网的终端,包括台式电脑、手机、PDA、笔记本电脑、车载设备等。
图7示出了根据本公开一示例实施方式的从目标文本中提取摘要信息的方法的流程图。该方法主要由语言处理引擎103执行。
目标文本是指作为待处理目标的文本。摘要信息是指从目标文本中提取的概括的信息。在图1A所示的提取实体简称的应用场景中,目标文本是实体全称,摘要信息是指实体简称。实体是指企业单位、事业单位、国家机关和社会团体。实体简称的每个字符存在于实体全称中,只需要从实体全称中识别出。在图1B所示的会议纪要生成的应用场景中,目标文本是从会议中用户的语言转换成的文本,即会议记录,会议纪要是从会议记录中提取出的概括信息。会议纪要存在于会议记录中,只需要从会议记录中提取出。在图1C所示的网页文本自动摘要生成和搜索的应用场景中,目标文本是网页文本,摘要信息是从网页文本中提取的摘要。
如图7所示,根据本公开一个实施例的从目标文本中提取摘要信息的方法包括:
步骤210、获取目标文本;
步骤220、在所述目标文本之前和之后分别设置指针和结束符;
步骤230、将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;
步骤240、将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息。
下面对上述步骤进行详细描述。
在步骤210中,获取目标文本。
如上所述,在图1A所示的提取实体简称的应用场景中,目标文本是实体全称。由于提取实体简称的应用场景又可分为如图2A-2B所示的实体简称查询应用的场景、图3A-3B所示的实体名称消岐工具的场景、图4A-4B的错误简称消除工具的场景等,分各种情况详细描述获取目标文本的方法。
在图2A-2B所示的实体简称查询应用的场景中,获取目标文本包括:接收用户在实体全称输入框中输入的实体全称。该输入可以是用户逐字的键入,也可以是通过字处理软件中的拷贝功能将文档中的一个实体全称拷贝如实体全称输入框,等等。
如图10所示,在图3A-3B、图4A-4B分别所示的实体名称消岐工具和错误简称消除工具中,获取目标文本包括:
步骤2101、将目标语段分解成语句;
步骤2102、基于分解成的语句,按照预定规则获取实体全称。
目标语段是指需要从中进行实体名称消岐、或者需要进行错误简称消除的语段。实体名称消岐是指为了不至于让同一实体的全称或各种简称在同一段落中出现引起混淆,而将段落中出现的同一实体的全称或简称统一成一致的名称。错误简称消除是指为了不至于让段落中用错的实体简称干扰用户,使用户不知道是否指的是相应的实体全称,而对用错的简称进行的消除。
在一个实施例中,将目标语段分解成语句包括:获取目标语段;将该目标语段分解成语句。
在一个实施例中,获取目标语段可以通过接收用户在目标语段输入框中输入的目标语段来实现。该输入可以是用户逐字的键入,也可以是通过字处理软件中的拷贝功能将文档中的一个语段拷贝入目标语段输入框,等等。
在一个实施例中,获取目标语段也可以通过获取用户指定的目标文章,然后将目标文章分解成目标语段实现。例如,用户在界面上的指定目标文章的路径的框中可以指定或选择目标文章存储在本地的路径。然后从用户指定的路径获取该目标文章。然后,将目标文章按照目标文章中的自然段,分解成一个一个目标语段,顺序显示在图3A、或图4A所示的界面上,让用户确认是否消岐,或进行错误简称消除。
将目标语段分解成语句可以通过目标语段中检测出的“。”、“;”、“!”、“?”等分割语段的标点符号进行分解。
如图11所示,在一个实施例中,所述预定规则包括:
步骤21021、将语句分成词;
步骤21022、识别分成的词中的地理名词和实体类型词;
步骤21023、针对所述语句中从识别出的地理名词开始到识别出的实体类型词之间的部分,在互联网上进行搜索;
步骤21024、如果搜索结果满足预定条件,确定所述部分是实体全称。
步骤21021可以采用现有的分词技术将语句分成词。关于步骤21022中的识别词性,也是采用现有的词性标注方法。地理名词是指如“中国”、“北京”等表示地理区域的名词,实体类型词是表示实体的类型,如“公司”、“厂”、“银行”等的名词。一般来说,大多数实体全称都是以地理名称开头、实体类型词结束的,比如“云南天然气化工厂”就是以“云南”开头、以“厂”结束。因此,通过这种方式,就能找到大多数实体全称。
设置步骤21023是因为,也有很可能在语句中出现了地理名称和实体类型词,但从地理名词开始到实体类型词之间的部分并不一定是实体全称,而是句子中一个意群。例如,“中国涌现出层出不穷的民营企业”虽然以地理名称开头,实体类型词结束,但并不是一个实体全称。因此,针对所述语句中从识别出的地理名词开始到识别出的实体类型词之间的部分,在互联网上进行搜索。如果其是实体全称,在互联网可能找到的搜索结果会足够多。如果其是普通的意群,可能在互联网上找不到很多的搜索结果。因此,在步骤21024中,如果搜索结果满足预定条件,确定所述部分是实体全称。
在一个实施例中,所述预定条件包括:包含所述部分的搜索结果数目超出预定数目阈值。预定数目阈值是事先根据经验设置的。
在另一个实施例中,在步骤21024中,不仅根据搜索结果与预定条件的比较,还根据所述语句中从识别出的地理名词开始到识别出的实体类型词之间的部分与实体工商登记网站信息的匹配,来确定所述部分是否是实体名称。
在一个实施例中,可以规定,如果包含所述部分的搜索结果数目超出预定数目阈值,同时该部分与实体工商登记网站登记的实体全称完全一致,才认为所述部分是实体名称。
在某些情况下,由于不完全登记等原因,从识别出的地理名词开始到识别出的实体类型词之间的部分之间并不是完全匹配,而是有微小差别,例如,根据“北京集优家具集团”,在工商登记网站只找到了“北京集优家具城”、“北京集优家具进出口公司”、“北京集优家具制造公司”等登记名称。从道理上讲,对于集团内部各公司都已在工商注册的情形,集团一般不会再注册,而且工商机关也不会要求集团注册。因此,这种情况下,尽管有微小差别,可能还是认为所述部分在实体工商登记网站信息中找到了匹配。
因此,在一个实施例中,可以规定,如果包含所述部分的搜索结果数目超出预定数目阈值,同时该部分与实体工商登记网站登记的实体全称的匹配得分超出预定匹配得分阈值,才认为所述部分是实体名称。匹配得分如下确定:
在工商登记网站查找到与所述部分连续重合字数最多的登记名称,用该连续重合字数除以所述部分的总字数,得到匹配得分。
连续重合是若干个字符连起来作为整体在所述部分中出现,在所述查找到的登记名称中也出现。例如,根据“北京集优家具集团”,在工商登记网站找到“北京集必优家具城”,尽管“北”、“京”、“集”、“优”、“家”、“具”在两个名称中都出现,但不能认为“北京集优家具”是连续重合。
例如,根据“北京集优家具集团”,在工商登记网站找到的与它连续重合字数最多的登记名称是“北京集优家具城”,连续重合了6个字。所述部分的总字数为8。匹配得分=6/8=0.75。
如图12所示,在一个实施例中,所述确定所述部分是实体全称,具体包括:
步骤210241、确定所述部分在互联网上搜索结果的搜索得分,该搜索得分取决于互联网上包含所述部分的搜索结果数目;
步骤210242、确定所述部分与实体工商登记网站信息的匹配得分,该匹配得分取决于所述部分与实体工商登记网站信息的匹配程度;
步骤210243、在所述搜索得分与匹配得分的加权和大于预定加权和阈值时,确定所述部分是实体全称。
在步骤210241中,在一个实施例中,根据搜索结果数目确定搜索得分可以通过如下公式进行:
S1=αP 公式1
其中,S1是搜索得分,P是搜索结果数目,α是常系数。
该实施例是任务搜索得分与搜索结果数目成正比。然而,所述部分是实体全称的概率并不是随搜索结果的数目均匀变化,而是,当搜索结果有一定的数目后,所述部分是实体全称的概率就比较大了,再增加少量搜索结果数目,对概率的影响并不大,而在搜索结果本身比较少时,少量增加搜索结果的数目,对所述部分是实体全称的概率影响非常大。为了克服上述线性公式的缺点,在另一个实施例中,也可以采用查表的方式,先根据搜索结果数目确定该搜索结果数目所在的区间,然后根据区间与搜索得分对照表得出搜索得分,例如:
搜索结果数目所在区间 搜索得分
100以上 1
60-99 0.8
30-59 0.6
10-29 0.4
3-9 0.2
0-2 0
表1
例如,搜索结果为57个,所在区间是30-59,查表1得到搜索得分为0.6。
步骤210242中,确定所述部分与实体工商登记网站信息的匹配得分。该匹配得分如上确定,即:
在工商登记网站查找到与所述部分连续重合字数最多的登记名称,用该连续重合字数除以所述部分的总字数,得到匹配得分。
步骤210243中,在所述搜索得分与匹配得分的加权和大于预定加权和阈值时,确定所述部分是实体全称。
例如,搜索得分=0.6,匹配得分=0.8,搜索得分的权重为0.6,匹配得分的权重为0.4,加权和=0.6×0.6+0.8×0.4=0.36+0.32=0.68。预定加权和为0.65,则确定所述部分是实体全称。
另外,所述预定规则可以包括:
步骤21021’、识别所述目标语段的作者;
步骤21022’、爬取所述作者的电子邮件和实体通讯录中的实体全称;
步骤21023’、如果分解成的语句含有爬取的实体全称,则获取该实体全称。
步骤21021’可以通过识别所述目标语段所在文档的作者标识来实现。目标语段出自一个文档,该文档有作者标识、最后一次修改时间等属性。因此,只要读取该属性中的作者标识,就可以获得该文档的作者标识,该作者标识其实是作者写该文档时所用的计算机的标识。但由于获取标识的意义在于如步骤21022’所示爬取相应计算机上的电子邮件和实体通讯录中实体全称,因此,可以将计算机的标识看作作者标识。
步骤21022’中,爬取所述作者的电子邮件中的实体全称可以通过爬取作者的计算机中所有电子邮件结尾的发件人所属实体的全称来实现。在电子邮件中,通过在结尾的发件人的落款中,会有发件人的姓名、所属实体(单位)、职务等,因此,通过爬取作者计算机的所有电子邮件的该部分,可以获得一定数目的实体全称。另外,作者的计算机中可能还有实体通讯录,该实体通讯录记载着实体(单位)的全称、地址、电话、联系人等信息。可以实体通讯录中也可以爬取到一定数目的实体全称。
由于步骤21022’中爬取的实体全称是从作者的电子邮件或实体通讯录爬取的,其往往是用户常用的实体全称。因此,该作者所写的文档中的目标语段中的实体全称,很可能也出自这里。因此,在步骤21023’中,可以将分解成的语句逐一与爬取的实体全称进行比对。如含有爬取的实体全称中一个或多个,则获得这些实体全称。
通过该方法,可以弥补图11所示的互联网上搜索匹配的实体全称造成了互联网上信息不准确造成的错误实体全称提取。同时,由于电子邮件和通讯录是用户常用的工具,其上的实体全称一般是用户经常使用的,利用其来获取实体全称,能提高实体全称的获取效率。
如图18所示,在图5A-5B所示的会议纪要生成的场景下,在一个实施例中,步骤210包括:
步骤2101’、识别会议中用户的语音;
步骤2102’、将识别的语音转换成文本。
如图1B所示,在步骤2101’中,由会议视音频采集设备107采集用户的语音,发送到语言处理引擎103,由语言处理引擎103将采集的用户的语音转换成文本,即会议记录,会议记录显示在屏幕105上。
在图6A-6B所示的为网页文本自动摘要的场景下,在一个实施例中,步骤210是通过如图1C所示,从内容服务器接收需要生成摘要的网页文本实现的。内容服务器110将需要生成摘要的网页文本逐一发给语言处理引擎103,由语言处理引擎103为其生成摘要。网页文本包括互联网上的新闻、文章、评论等。
在步骤220中,在所述目标文本之前和之后分别设置指针和结束符。
结束符即表示结束的符号,在图23A中用#表示。
如图23A所示,假设目标文本是实体全称“云南天然气化工厂”,在其前面设置指针701,在图23A用向下的箭头表示,在其后面设置结束符。
在步骤230中,将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符。
例如,如图23A所示,指针701的初始位置是在实体全称“云南天然气化工厂”的前面。将其初始位置和实体全称“云南天然气化工厂”输入机器学习模型,由机器学习模型输出预测的下一个指针位置“云”,如图23B所示。将指针的位置“云”和实体全称“云南天然气化工厂”输入机器学习模型,由机器学习模型输出预测的下一个指针位置“天”,如图23C所示。将指针的位置“天”和实体全称“云南天然气化工厂”输入机器学习模型,由机器学习模型输出预测的下一个指针位置“化”,如图23D所示。将指针的位置“化”和实体全称“云南天然气化工厂”输入机器学习模型,由机器学习模型输出预测的下一个指针位置“#”,如图23E所示。这样,将在指针到达结束符“#”之后指向的所有位置的字符顺序取出,就形成了实体简称“云天化”。
在一个实施例中,所述机器学习模型事先如下训练:
步骤310、获取目标文本样本集,该目标文本样本集包括多个目标文本样本,其中,每个目标文本样本之前和之后分别设置指针和结束符,且摘要信息已知;
步骤320、将每个目标文本样本输入机器学习模型,由机器学习模型预测所述目标文本样本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;
步骤330、将指针指向结束符之前在目标文本样本中顺序指向的所有位置的字符,与已知摘要信息比较,从而调整机器学习模型的参数,使指针指向结束符之前在目标文本样本中顺序指向的所有位置的字符与已知摘要信息一致。
目标文本样本是用于训练机器学习模型的样本,将目标文本样本输入机器学习模型。目标文本样本的摘要信息是已知的。因此,可以在每个目标文本样本之前和之后分别设置指针和结束符。机器学习模型根据指针的当前位置预测所述目标文本样本中所述指针的当前位置之后指向的下一个位置,由于摘要信息已知,可以根据摘要信息中所述指针的当前位置指向的字符的下一个字符,判断机器学习模型的预测是否正确。如果不正确,则调整机器学习模型的参数,使预测的所述目标文本样本中所述指针的当前位置之后指向的下一个位置与摘要信息中所述当前位置的字符的下一个字符一致。重复上述过程,直到指针指向结束符。由于目标文本样本集是由很多目标文本样本构成的,针对每个目标文本样本训练机器学习模型,最后得到的机器学习模型就能够自动根据目标文本样本,自动预测出其摘要信息,例如根据实体全称预测或提取摘要信息,例如从实体全称中提取实体简称。
现有技术的从目标文本中提取摘要信息的方法依赖于预定规则的集合,预定规则的集合很难做到穷举,因此,现有技术的方法准确率低。本公开实施例不依赖于对预定规则的人为设定,而是,通过机器学习模型输出摘要信息,消除了预定规则的人为设定对提取准确率造成的影响。另外,摘要信息的提取的特点是,提取的摘要信息的每个字符都在目标文本中,需要从中提取出来,不需要在目标文本之外寻找其他字符。因此,本公开实施例采用了一个带指针的机器学习模型,将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符,将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息。与现有技术一般的机器学习模型根据输入泛泛地产生输出不同,本公开实施例巧妙地利用摘要信息的每个字都在目标文本中的特点,让机器学习模型的输出为一个指针,通过让指针不断指向下一个位置,直到指向结束符,来完成摘要信息的提取,比起现有技术不用指针的盲目提取,大大提高了提取摘要信息的效率。
如图22所示,在一个具体实施例中,所述机器学习模型包括级联的编码网络503和解码网络504,编码网络503和解码网络504各自包括级联的门控循环单元(GRU)。GRU是一种神经网络中的基本单元,后面将参照图21进行详述。编码网络503包括的GRU的数目与目标文本的字符数相等。解码网络504包括的GRU的数目与摘要信息的字符数相等。由于目标文本的字符数是已知的,摘要信息的字符数是未知的,因此,编码网络503的GRU数是固定的,解码网络504的GRU数随提取的摘要信息的情况而定。如图22所示,在目标文本501是实体全称“腾讯征信有限公司”的情况下,摘要信息502是实体简称“腾讯征信”,因此,编码网络503的GRU数是8个,解码网络504的GRU数是4个。
目标文本的每个字符对应于一个向量,摘要信息的每个字符也对应于一个向量。字符对应的向量可以查找向量字典确定,在向量字典中有每个字符的向量,不同字符的向量各不相同。如果向量的维数是N的话,可以把每个字符看出N维向量空间中的一个点。
编码网络503中的每级GRU与目标文本的一个字符对应,每级GRU的输入为对应字符的向量、以及前一级GRU的输出。例如,编码网络503的第二个GRU(对应于“讯”)的输入为第一个GRU(对应于“腾”)的输出向量和“讯”对应的向量,其输出的向量再作为第三个GRU(对应于“征”)的输入。
解码网络504中的每级GRU与摘要信息的一个字符对应,每级GRU的输入为对应字符的向量、以及前一级GRU的输出。例如,解码网络504的第二个GRU(对应于“讯”)的输入为第一个GRU(对应于“腾”)的输出向量和“讯”对应的向量,其输出的向量再作为第三个GRU(对应于“征”)的输入。
下面结合图21简要介绍一下神经网络中的GRU。
首先介绍GRU的两个门,分别是重置门rt和更新门zt,其中重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量,公式如下:
Figure GDA0003828846110000201
其中Wr,Wz,Ur,Uz和σ是投影矩阵,其行数和列数与字符对应的向量的维数相等;xt为当前时刻的输入,相当于图22中与GRU对应的字符的向量;ht-1为上一个时刻的输出,维数与字符对应的向量的维数相等,相当于图22中前一个GRU的输出。如图22所示,当ht-1表示“腾”对应的GRU的输出向量时,xt为“讯”这个字符的向量,按照上述公式得到“讯”这个字符的重置门rt和更新门zt
候选隐藏层
Figure GDA0003828846110000211
是GRU中的另一个概念,可以看成是当前时刻的新信息加上之前记忆的信息。
Figure GDA0003828846110000212
的计算公式为:
Figure GDA0003828846110000213
其中,rt是上述重置门,用来控制需要保留多少之前的记忆,其维数维数与字符对应的向量的维数相等;W和U是投影矩阵,其行数和列数与字符对应的向量的维数相等。Tanh()为双曲正切函数。最后得到的
Figure GDA0003828846110000214
的维数与字符对应的向量的维数相等。
zt是更新门,用来控制需要从前一时刻的隐藏层ht-1中遗忘多少信息,需要加入多少当前时刻的隐藏层信息
Figure GDA0003828846110000215
最后得到ht,即第t级的GRU输出的隐藏层信息:
Figure GDA0003828846110000216
上述公式中1代表的是一个每个元素都为1的向量,其维数与字符对应的向量的维数相等。上述zt、ht-1
Figure GDA0003828846110000217
的维数都与字符对应的向量的维数相等。上述空心点乘的含义是将两个向量对应维度的元素相乘作为空心点乘后的向量的对应维度的元素。例如,将相邻(1,0,1)与(3,8,4)空心点乘的结果是(1×3,0×8,1×4)=(3,0,4)。
该GRU输出的隐藏层信息ht即GRU输出后,作为下一级GRU的输入的信息。同时作为下一级GRU输入的还有下一级GUR对应的字符的向量。
图21示出了GRU的内部逻辑运算关系图,它综合反映了上述公式2-4。它的输入是前一级GRU的输出ht-1、以及当前级GRU对应的字符向量xt,它的输出是当前级GRU的输出ht
如图9所示,所述预测所述目标文本中所述指针的当前位置之后指向的下一个位置的具体方法包括:
步骤410、求所述解码网络中所述指针当前位置的字符对应的门控循环单元的输出、与所述编码网络中各门控循环单元的输出的加权和向量;
步骤420、基于所述加权和向量,确定预测的下一个位置。
在一个实施例中,在步骤410中,所述求加权和向量基于以下公式:
Figure GDA0003828846110000221
其中,n为目标文本的字符数;
Figure GDA0003828846110000222
表示解码网络中第i-1个门控循环单元的输出、与编码网络中第j个门控循环单元的输出的加权和向量;hj表示编码网络中第j个门控循环单元的输出,维数与字符向量的维数相等;di-1表示解码网络中第i-1个门控循环单元输出的向量,维数与字符向量的维数相等;W1、W2是hj和di-1相应的权重矩阵,列和行数都与字符向量的维数相等;vT是常向量v的转置,常向量v的维数与字符向量的维数相等。
在一个实施例中,步骤420包括:将softmax函数最大的加权和向量对应的、编码网络中的门控循环单元对应的字符位置,确定为预测的下一个位置。softmax函数是已有函数,它的输入是一个向量,输出是一个值。
如上所述,如图22所示,在编码网络503的8个GRU中,第t级GRU的输入为前一级GRU的输出ht-1、以及当前级GRU对应的字符向量xt,其输出是当前级GRU的输出ht,其中1≦t≦8。在解码网络504的GRU中,也是每级GRU的输入为前一级GRU的输出ht-1、以及当前级GRU对应的字符向量xt,其输出是当前级GRU的输出ht,其中1≦t≦4。而且,编码网络最后一级的GRU与解码网络第一级的GRU相连。编码网络最后一级的GRU的输出作为解码网络的输入,但不是第一级的输入,因为第一级的另一个输入,即摘要信息的第一个字符的向量此时还无法确定。编码网络最后一级的GRU的输出只能作为解码网络的第0级的输入,第0级另一个输入,即摘要信息的第0个字符的向量,由于指针初始时设置在目标文本的前面,因此认为目标文本的前面也对应着一个向量,它是一个预定向量。根据这两个输入,第0级输出结果,作为第一级的输入。这时,第一级的另一个输入,即摘要信息的第一个字符的向量已确定,它是根据步骤410、步骤420预测出的。即,将第0级的输出结果d0代入公式5,同时将编码网络中8个门控循环单元中每个门控循环单元的输出hj分别代入公式5,得到8个
Figure GDA0003828846110000231
即8个加权和向量。分别求这8个向量的softmax函数,得到8个值,这8个值中最大的一个对应的j就是预测的下一个位置。例如,在图22的例子中,8个值中最大的对应的是编码网络中第一个GRU,其对应的字符是“腾”。因此,摘要信息的第一个字符确定为“腾”,其向量作为除h0之外第一级的另一个输入x1,第一级GRU产生输出h1作为第二级GRU的输入。同时,该h1代入公式5,同时将编码网络中8个门控循环单元中每个门控循环单元的输出hj再分别代入公式5,得到8个
Figure GDA0003828846110000232
这8个
Figure GDA0003828846110000233
的softmax函数值中最大的一个对应的j就是预测的下一个位置。预测的下一个位置的字符是“讯”。以此类推。
步骤240、将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息。
如图22所示,指针指向结束符之前在目标文本中指向的所有位置的字符为“腾”、“讯”、“征”、“信”。将它们顺序取出,即“腾讯征信”,作为提取的实体简称。
在图2A-2B所示的实体简称查询应用的子场景下,在步骤240得到实体简称后过程结束。
如图13所示,在图3A-3B所示的实体名称消岐工具的应用的子场景下,在步骤240之后,在一个实施例中,所述方法还包括:步骤250、将所述目标语段中识别出的实体简称替换成所述实体全称。
具体地说,将所述目标语段中识别出的实体简称替换成所述实体全称包括:
在所述目标语段中识别所提取的实体简称;
将识别出的实体简称替换成所述实体全称。
例如,在图3A所示的目标语段中识别步骤240提取的实体简称“云天化”后,在目标语段中按照“云天化”进行识别,识别出两处“云天化”。将识别出的两处“云天化”替换成实体全称“云南天然气化工厂”,如图3B所示。这样,目标语段中指代“云南天然气化工厂”的地方就都统一成了实体全称,消除了实体全称和实体简称在同一目标语段中出现造成用户的混淆。
如图14所示,在图4A-4B所示的错误简称消除工具的应用的子场景下,在步骤240之后,在一个实施例中,所述方法还包括:
步骤260、在所述目标语段中识别候选待纠正实体简称,其中,所述候选待纠正实体简称是所述目标语段中存在的连续多个字符,所述连续多个字符的每个字符都存在于获取的一个实体全称且顺序与在该实体全称中的顺序相同;
步骤270、将识别出的候选待纠正实体简称替换成识别出的实体简称。
错误实体简称是指由于不了解实体全称真正的简称而擅自杜撰的简称。它与真正的实体简称有一个共同的特点就是,它也是每个字符都存在于实体全称之中,且顺序与在该实体全称中的顺序相同,只不过它是不符合这个实体约定俗成的简称而已。因此,按照连续多个字符的每个字符都存在于获取的一个实体全称且顺序与在该实体全称中的顺序相同这样一个标准,在所述目标语段中查找这样的连续多个字符,该连续多个字符可能是错误实体简称,也可能是真正的实体简称,其统称为候选待纠正实体简称。无论它是错误实体简称,还是真正的实体简称,识别出它们后,将它们替换成识别出的实体简称,就达到了纠正错误实体简称的作用。
例如,在图4A的目标语段中,“云天化”是正确实体简称,“云南天然气”是错误实体简称,“云南天然化工”也是错误实体简称,它们统称为待纠正实体简称。将它们统一替换成步骤240提取出的实体简称,即“云天化”,如图4B所示。
在图3A-3B所示的实体名称消岐工具的子场景下,也有可能出现这样的情形,即在一个目标语段中存在两个以上实体全称,最后机器学习模型输出它们的实体简称是一样的。例如,在目标语段中,存在“云南天然气化工厂”和“云南天天化工厂”,机器学习模型输出它们的实体简称都是“云天化”。这时,如果在同一目标语段中存在“云天化”,将其确定为哪个实体全称的简称,就成为了一个问题。
如图15所示,在一个实施例中,步骤240包括:
步骤2401、在将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出后,如果识别出的字符序列与针对目标语段中的其它实体全称识别出的字符序列一致,则确定所述目标语段中所述实体全称的出现次数和所述其它实体全称的出现次数;
步骤2402、基于所述目标语段中所述实体全称的出现次数和所述其它实体全称的出现次数的比较,将该字符序列确定为所述实体全称的简称,或者所述其它实体全称的简称。具体地说,如果前者的出现次数大于后者,将该字符序列确定为所述实体全称的简称;如果前者的出现次数小于后者,将该字符序列确定为所述其它实体全称的简称。
也就是说,在该实施例中,当一个目标语段的两个以上实体全称经机器学习模型输出同样的一个实体简称,该实体简称属于哪个实体全称,取决于实体全称在目标语段中的出现次数。例如,在目标语段中,识别出“云南天然气化工厂”的实体简称为“云天化”,但识别出目标语段中同时存在一个其它实体全称“云南天天化工厂”的实体简称也是“云天化”。将“云天化”归为属于“云南天然气化工厂”的实体简称,还是属于“云南天天化工厂”的实体简称,取决于“云南天然气化工厂”和“云南天天化工厂”在目标语段中的出现次数。假设“云南天然气化工厂”和“云南天天化工厂”在目标语段中的出现次数分别是5和1,则认为“云天化”是“云南天然气化工厂”的简称。在消岐操作时,将“云天化”替换成“云南天然气化工厂”。
该实施例的好处是,解决了当一个目标语段的两个以上实体全称经机器学习模型输出同样的一个实体简称时的混淆问题。
上述实施例只考虑实体全称在同一目标语段中的出现次数,但有时虽然某一实体全称在该目标语段出现的次数比较多,但该目标语段很长,这些出现次数比较多的实体全称出现在该目标语段中离实体简称较远的位置,而实体简称越近的实体全称才更有可能是实体简称代表的实体全称。因此,在另一个实施例中,所述将该实体简称确定为所述实体全称的简称,或者所述其它实体全称的简称,还基于在所述目标语段中离所述实体简称最近的所述实体全称、和所述其它实体全称与该实体简称间隔的字符数的比较。
为了提高确定实体简称所属的实体全称的准确率,还可以通过将实体简称与候选的实体全称分别放到互联网上进行搜索,实体简称与哪个候选的实体全称一起放到互联网上进行搜索得到的、共同包括该实体简称和该实体全称的搜索结果多,就认为实体简称属于哪个候选的实体全称。因此,在另一个实施例中,所述将该实体简称确定为所述实体全称的简称,或者所述其它实体全称的简称,还基于以该实体简称和所述实体全称为关键词在互联网上搜索确定的第一命中数目、和以该实体简称和所述其它实体全称为关键词在互联网上搜索确定的第二命中数目的比较。
第一命中数目就是互联网上搜索出来的、共同包含该实体简称和所述实体全称的搜索结果数目,第二命中数目就是互联网上搜索出来的、共同包含该实体简称和所述其它实体全称的搜索结果数目。如果第一命中数目大于第二命中数目,说明该实体简称和该实体全称共同出现的几率大,该实体简称更有可能是该实体全称的简称;如果第一命中数目小于第二命中数目,说明该实体简称和该其它实体全称共同出现的几率大,该其它实体简称更有可能是该实体全称的简称。
如图16所示,在一个实施例中,步骤2402包括:
步骤24021、基于所述目标语段中所述实体全称的出现次数和所述其它实体全称的出现次数,分别确定所述实体全称和所述其它实体全称的第一得分;
步骤24022、基于在所述目标语段中所述实体全称离实体简称最近的一个、和所述其它实体全称离实体简称最近的一个与该实体简称间隔的字符数,分别确定所述实体全称和所述其它实体全称的第二得分;
步骤24023、基于以该实体简称和所述实体全称为关键词在互联网上搜索确定的第一命中数目、和以该实体简称和所述其它实体全称为关键词在互联网上搜索确定的第二命中数目,分别确定所述实体全称和所述其它实体全称的第三得分;
步骤24024、基于所述实体全称和所述其它实体全称的第一得分、第二得分、第三得分的加权和的比较,将该实体简称确定为所述实体全称的简称,或者所述其它实体全称的简称。
在步骤24021中,在一个实施例中,可以通过查找出现次数与第一得分对照表的方式,分别确定所述实体全称和所述其它实体全称的第一得分。
在目标语段中的出现次数 第一得分
10次以上 1
6-9次 0.8
4-5次 0.6
2-3次 0.4
1次 0.2
0次 0
表2
该对照表可以根据经验预先设定。
例如,所述实体全称出现了5次,所述其它实体全称出现了1次,所述实体全称和所述其它实体全称的第一得分分别为0.6和0.2分。
在步骤24022中,在一个实施例中,可以通过查找在该目标语段中与实体简称相隔字符数与第二得分的对照表的方式,分别确定所述实体全称和所述其它实体全称的第二得分。实体全称与实体简称相隔字符数不包括实体全称和实体简称本身。其它实体全称与实体简称相隔字符数不包括所述其它实体全称和实体简称本身。
在目标语段中与实体简称相隔的字符数 第二得分
2个以下 1
3-5 0.8
6-10 0.6
11-20 0.4
21-40 0.2
41以上 0
表3
该对照表可以根据经验预先设定。
例如,所述实体全称出现了5次,其中离实体简称最近的一个实体全称与该实体简称间隔了20个字符,查表得到第二得分为0.4;所述其它实体全称出现了1次,离该实体简称间隔了2个字符,查表得到第二得分为1。
在步骤24023中,在一个实施例中,可以通过查找命中数目与第三得分的对照表的方式,分别确定所述实体全称和所述其它实体全称的第三得分。命中数目包括第一命中数目或第二命中数目。
命中数目 第三得分
100个以上 1
50-99 0.8
30-49 0.6
10-29 0.4
3-9 0.2
0-2 0
表4
该对照表可以根据经验预先设定。
例如,所述第一命中数目为10,第二命中数目为128,查表得到所述实体全称和所述其它实体全称的第三得分分别为0.4和1。
在步骤24024中,在一个实施例中基于所述实体全称和所述其它实体全称的第一得分、第二得分、第三得分的加权和的比较,将该实体简称确定为所述实体全称的简称,或者所述其它实体全称的简称,具体包括:
如果所述实体全称的加权和大于所述其它实体全称的加权和,将该实体简称确定为所述实体全称的简称;
如果所述实体全称的加权和小于所述其它实体全称的加权和,将该实体简称确定为所述其它实体全称的简称。
假设第一得分、第二得分、第三得分的权重分别为0.4、0.4、0.2,所述实体全称和所述其它实体全称的第一得分分别为0.6和0.2分,第二得分分别为0.4和1分,第三得分分别为0.4和1分,则所述实体全称的所述加权和=0.6×0.4+0.4×0.4+0.4×0.2=0.24+0.16+0.08=0.48;所述其它实体全称的所述加权和=0.2×0.4+1×0.4+1×0.2=0.08+0.4+0.2=0.68。由于0.48<0.68,认为该实体简称是所述其它实体全称的简称。
由于该实施例综合考虑了所述目标语段中所述实体全称和其它实体全称的出现次数,在所述目标语段中所述实体全称离实体简称的远近、以及以该实体简称或其它实体简称和所述实体全称为关键词在互联网上搜索确定的命中数目,来确定该实体简称是所述实体全称的简称,还是所述其它实体全称的简称,大大提高了确定实体简称归属的实体全称的准确率。
另外,在图1B所示的会议纪要生成的应用场景下,除了识别用户在电话上的语言之外,还识别发出语音的用户。它可以通过在会议开始前,由参会的用户在会议视音频采集设备107上录入自己的声纹,在会议进行时,通过比较用户发出的语音与预先录入的各声纹,来识别发出所述语音的用户。
在该实施例中,所述机器学习模型还可以是针对该用户训练的机器学习模型。也就是说,训练该机器学习模型的目标文本样本集中的每个目标文本样本都是该用户以前在会议发言时其语音转换成的文本,且摘要信息已知。将指针指向结束符之前在目标文本样本中顺序指向的所有位置的字符,与已知摘要信息比较,从而调整机器学习模型的参数,使指针指向结束符之前在目标文本样本中顺序指向的所有位置的字符与已知摘要信息一致。这样,该机器学习模型就能适应该用户特有的语言表达习惯,结合该用户特有的语言表达习惯,输出更为准确的会议纪要。该实施例提高了生成会议纪要的个性化和准确性。
在一个实施例中,输入所述机器学习模型的目标文本是会议中除主持人外的用户的语音转换成的文本,所述主持人的语言转换成的全部文本并入所述会议纪要中。也就是说,所述主持人的语言转换成的文本不输入机器学习模型,让机器学习模型输入会议纪要,而是整个都并入会议纪要。这时因为,主持人的讲话在会议中更为关键,而且主持人的讲话通常不会太多,全并入会议纪要不但能更好地帮助理解会议纪要,也不会占用太大篇幅。
在一个实施例中,所述会议纪要与识别出的用户对应地记录。例如,在图5B中,生成的会议记录首先出现姓名,在姓名的后面有“:”,其在会议中的话生成的会议纪要记录在“:”的后面。这样生成会议纪要的好处是,使得每个观点出自于哪位参会用户更加一目了然。
在一个实施例中,如图19所示,在为网页文本生成摘要的应用场景中,在步骤240之后,所述方法还包括:步骤280、响应于用户鼠标在网页文本处的悬停,显示摘要框,所述摘要框包含该网页文本的摘要。
如图6B所示,在界面上显示多个网页文本111,为了节省显示空间,每个网页文本仅显示了开头部分。当用户将鼠标悬停在该开头部分时,显示摘要框112,摘要框112中含有在步骤240中为网页文本生成的摘要。通过该摘要,用户可以大致了解该网页文本的整体概括内容,而通过显示的开头,仅仅能了解网页文本的前面的少量内容。该实施方式使用户能快速了解网页文本的概括信息。
如图20所示,在一个实施例中,在步骤240之后,所述方法还包括:
步骤285、接收用户输入的关键词;
步骤290、如果所述关键词与目标文本的摘要匹配,则将所述目标文本作为所述关键词得到的搜索结果之一。
在一个实施例中,所述关键词与目标文本的摘要匹配,包括:
关键词在所述目标文本的摘要中的出现次数超过预定次数阈值。
在一个实施例中,当用户输入多个关键词时,关键词在所述目标文本的摘要中的出现次数等于每个关键词在所述目标文本的摘要中的出现次数之和。例如,用户输入“天然气”、“海外”两个关键词,目标文本的摘要是“云天化致力提供天然气产品,为国有企业提供天然气,产品远销海外,与海外长期合作”,预定次数阈值为3,可见,“天然气”在目标文本的摘要中出现了2次,“海外”在目标文本的摘要中出现了2次。关键词在所述目标文本的摘要中的出现次数为4,超过预定次数阈值3,认为所述关键词与目标文本的摘要匹配,则将所述目标文本作为所述关键词得到的搜索结果之一。
由于目标文本的摘要是按照本公开实施例的上述方法生成的,其客观地反映了目标文件的概括内容,因此,相比于将搜索关键词与用户自己贴上去的标签或自己生成的摘要进行匹配的方式,以及相比于将搜索关键词与网络管理者贴上去的标签或网络管理者生成的摘要进行匹配的方式,大大提高了搜索结果的客观性,使搜索结果更加准确。
在另一个实施例中,所述关键词与目标文本的摘要匹配,包括:
关键词之一在所述目标文本的摘要中的出现过至少一次。
在该实施例中,只要用户输入的关键词中的一个在生成的目标文本的摘要中出现过,则认为发生了匹配。该目标文本会作为搜索结果显示。但是,用户输入的多个关键词都各自在目标文本的摘要中多次出现的情形,显然比一个关键词在目标文本的摘要中只出现一次的匹配程度高,其显示的排序可能不同。对于匹配程度高的搜索结果,将其显示在靠前的位置。对于匹配程度低的搜索结果,将其显示在靠后的位置。
因此,在一个实施例中,搜索结果是按照关键词在所述目标文本的摘要中的出现次数由高到低进行排序的。当用户输入多个关键词时,关键词在所述目标文本的摘要中的出现次数等于每个关键词在所述目标文本的摘要中的出现次数之和。
例如,用户输入“天然气”、“海外”两个关键词,一个作为检索结果的目标文本的摘要中只出现了“海外”,且只出现一次,另一个在目标文本的摘要中出现了两次“天然气”、两次“海外”,则后者的排序比前者高。
如图24所示,根据本公开的一个实施例,还提供了一种从目标文本中提取摘要信息的装置,包括:
目标文本获取单元610,用于获取目标文本;
设置单元620,用于在所述目标文本之前和之后分别设置指针和结束符;
指针位置预测单元630,用于将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;
摘要信息生成单元640,用于将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息。
在一个实施例中,所述机器学习模型事先如下训练:
获取目标文本样本集,该目标文本样本集包括多个目标文本样本,其中,每个目标文本样本之前和之后分别设置指针和结束符,且摘要信息已知;
将每个目标文本样本输入机器学习模型,由机器学习模型预测所述目标文本样本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;
将指针指向结束符之前在目标文本样本中顺序指向的所有位置的字符,与已知摘要信息比较,从而调整机器学习模型的参数,使指针指向结束符之前在目标文本样本中顺序指向的所有位置的字符与已知摘要信息一致。
在一个实施例中,所述机器学习模型包括级联的编码网络和解码网络,编码网络和解码网络各自包括级联的门控循环单元,其中,编码网络中的每级门控循环单元与目标文本的一个字符对应,每级门控循环单元的输入为对应字符的向量、以及前一级门控循环单元的输出;解码网络中的每级门控循环单元与摘要信息的一个字符对应,每级门控循环单元的输入为对应字符的向量、以及前一级门控循环单元的输出。所述预测所述目标文本中所述指针的当前位置之后指向的下一个位置的具体方法包括:
求所述解码网络中所述指针当前位置的字符对应的门控循环单元的输出、与所述编码网络中各门控循环单元的输出的加权和向量;
基于所述加权和向量,确定预测的下一个位置。
在一个实施例中,所述基于所述加权和向量,确定预测的下一个位置,包括:
将softmax函数最大的加权和向量对应的、编码网络中的门控循环单元对应的字符位置,确定为预测的下一个位置。
在一个实施例中,所述求加权和向量基于以下公式:
Figure GDA0003828846110000321
其中,n为目标文本的字符数;
Figure GDA0003828846110000322
表示解码网络中第i-1个门控循环单元的输出、与编码网络中第j个门控循环单元的输出的加权和向量;hj表示编码网络中第j个门控循环单元的输出,维数与字符向量的维数相等;di-1表示解码网络中第i-1个门控循环单元输出的向量,维数与字符向量的维数相等;W1、W2是hj和di-1相应的权重矩阵,列和行数都与字符向量的维数相等;vT是常向量v的转置,常向量v的维数与字符向量的维数相等。
在一个实施例中,所述目标文本是实体全称,所述摘要信息是实体简称。
在一个实施例中,所述目标文本获取单元610进一步用于:
将目标语段分解成语句;
基于分解成的语句,按照预定规则获取实体全称。
在一个实施例中,将目标语段分解成语句包括:
获取目标语段;
将该目标语段分解成语句。
在一个实施例中,获取目标语段包括:
获取用户指定的目标文章;
将目标文章分解成目标语段。
在一个实施例中,所述预定规则包括:
将语句分成词;
识别分成的词中的地理名词和实体类型词;
针对所述语句中从识别出的地理名词开始到识别出的实体类型词之间的部分,在互联网上进行搜索;
如果搜索结果满足预定条件,确定所述部分是实体全称。
在一个实施例中,所述预定条件包括:包含所述部分的搜索结果数目超出预定数目阈值。
在一个实施例中,确定所述部分是实体全称还基于所述部分与实体工商登记网站信息的匹配。
在一个实施例中,所述确定所述部分是实体全称,具体包括:
确定所述部分在互联网上搜索结果的搜索得分,该搜索得分取决于互联网上包含所述部分的搜索结果数目;
确定所述部分与实体工商登记网站信息的匹配得分,该匹配得分取决于所述部分与实体工商登记网站信息的匹配程度;
在所述搜索得分与匹配得分的加权和大于预定加权和阈值时,确定所述部分是实体全称。
在一个实施例中,所述装置包括:
第一替换单元(未示),用于在将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息之后,将所述目标语段中识别出的实体简称替换成所述实体全称。
在一个实施例中,所述装置包括:
识别单元(未示),用于在所述目标语段中识别候选待纠正实体简称,其中,所述候选待纠正实体简称是所述目标语段中存在的连续多个字符,所述连续多个字符的每个字符都存在于获取的一个实体全称且顺序与在该实体全称中的顺序相同;
第二替换单元(未示),用于将识别出的候选待纠正实体简称替换成识别出的实体简称。
在一个实施例中,所述摘要信息生成单元640进一步用于:
在将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出后,如果识别出的字符序列与针对目标语段中的其它实体全称识别出的字符序列一致,则确定所述目标语段中所述实体全称的出现次数和所述其它实体全称的出现次数;
基于所述目标语段中所述实体全称的出现次数和所述其它实体全称的出现次数的比较,将该字符序列确定为所述实体全称的简称,或者所述其它实体全称的简称。
在一个实施例中,所述将该实体简称确定为所述实体全称的简称,或者所述其它实体全称的简称,还基于在所述目标语段中离所述实体简称最近的所述实体全称、和所述其它实体全称与该实体简称间隔的字符数的比较。
在一个实施例中,所述将该实体简称确定为所述实体全称的简称,或者所述其它实体全称的简称,还基于以该实体简称和所述实体全称为关键词在互联网上搜索确定的第一命中数目、和以该实体简称和所述其它实体全称为关键词在互联网上搜索确定的第二命中数目的比较。
在一个实施例中,所述将该实体简称确定为所述实体全称的简称,或者所述其它实体全称的简称,具体包括:
基于所述目标语段中所述实体全称的出现次数和所述其它实体全称的出现次数,分别确定所述实体全称和所述其它实体全称的第一得分;
基于在所述目标语段中所述实体全称离所述实体简称最近的一个、和所述其它实体全称离所述实体简称最近的一个分别与该实体简称间隔的字符数,根本确定所述实体全称和所述其它实体全称的第二得分;
基于以该实体简称和所述实体全称为关键词在互联网上搜索确定的第一命中数目、和以该实体简称和所述其它实体全称为关键词在互联网上搜索确定的第二命中数目,分别确定所述实体全称和所述其它实体全称的第三得分;
基于所述实体全称和所述其它实体全称的第一得分、第二得分、第三得分的加权和的比较,将该实体简称确定为所述实体全称的简称,或者所述其它实体全称的简称。
在一个实施例中,所述预定规则还包括:
识别所述目标语段的作者;
爬取所述作者的电子邮件和实体通讯录中的实体全称;
如果分解成的语句含有爬取的实体全称,则获取该实体全称。
在一个实施例中,所述目标文本是会议中用户的语音识别成的文本,所述摘要信息是会议纪要。
在一个实施例中,所述目标文本获取单元610进一步用于:
识别会议中用户的语音;
将识别的语音转换成文本。
在一个实施例中,所述装置还包括:
用户识别单元(未示),用于识别发出所述语音的用户;
其中,所述机器学习模型是针对该用户训练的机器学习模型。
在一个实施例中,输入所述机器学习模型的目标文本是会议中除主持人外的用户的语音转换成的文本,所述主持人的语言转换成的全部文本并入所述会议纪要中。
在一个实施例中,所述会议纪要与识别出的用户对应地记录。
在一个实施例中,所述目标文本是网页文本,所述摘要信息是网页文本的摘要。
在一个实施例中,所述装置还包括:
摘要框显示单元,用于响应于用户鼠标在网页文本处的悬停,显示摘要框,所述摘要框包含该网页文本的摘要。
在一个实施例中,所述装置还包括:
关键词接收单元,用于接收用户输入的关键词;
搜索结果确定单元,用于如果所述关键词与目标文本的摘要匹配,则将所述目标文本作为所述关键词得到的搜索结果之一。
在一个实施例中,所述关键词与目标文本的摘要匹配,包括:
关键词在所述目标文本的摘要中的出现次数超过预定次数阈值。
在一个实施例中,所述关键词与目标文本的摘要匹配,包括:
关键词之一在所述目标文本的摘要中的出现过至少一次。
在一个实施例中,搜索结果是按照关键词在所述目标文本的摘要中的出现次数由高到低进行排序的。
根据本公开实施例的从目标文本中提取摘要信息的方法可以由图1A-1C的语言处理引擎103实现。下面参照图25来描述根据本公开实施例的语言处理引擎103。图25显示的语言处理引擎103仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图25所示,语言处理引擎103以通用计算设备的形式表现。语言处理引擎103的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图7中所示的各个步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
语言处理引擎103也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该语言处理引擎103交互的设备通信,和/或与使得该语言处理引擎103能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,语言处理引擎103还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与语言处理引擎103的其它模块通信。应当明白,尽管图中未示出,可以结合语言处理引擎103使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
根据本公开的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (13)

1.一种从目标文本中提取摘要信息的方法,其特征在于,包括:
获取目标文本;
在所述目标文本之前和之后分别设置指针和结束符;
将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;所述机器学习模型包括级联的编码网络和解码网络,编码网络和解码网络各自包括级联的门控循环单元,其中,编码网络中的每级门控循环单元与目标文本的一个字符对应,每级门控循环单元的输入为对应字符的向量、以及前一级门控循环单元的输出;解码网络中的每级门控循环单元与摘要信息的一个字符对应,每级门控循环单元的输入为对应字符的向量、以及前一级门控循环单元的输出;
将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息;
其中,预测所述目标文本中所述指针的当前位置之后指向的下一个位置,包括:
通过以下公式求所述解码网络中所述指针当前位置的字符对应的门控循环单元的输出、与所述编码网络中各门控循环单元的输出的加权和向量:
Figure FDA0003828846100000011
其中,j∈(1,……,n);n为目标文本的字符数;
Figure FDA0003828846100000012
表示解码网络中第i-1个门控循环单元的输出、与编码网络中第j个门控循环单元的输出的加权和向量;hj表示编码网络中第j个门控循环单元的输出,维数与字符向量的维数相等;di-1表示解码网络中第i-1个门控循环单元输出的向量,维数与字符向量的维数相等;W1、W2是hj和di-1相应的权重矩阵,列和行数都与字符向量的维数相等;vT是常向量v的转置,常向量v的维数与字符向量的维数相等;
基于所述加权和向量,确定预测的所述下一个位置。
2.根据权利要求1所述的方法,其特征在于,所述机器学习模型事先如下训练:
获取目标文本样本集,该目标文本样本集包括多个目标文本样本,其中,每个目标文本样本之前和之后分别设置指针和结束符,且摘要信息已知;
将每个目标文本样本输入机器学习模型,由机器学习模型预测所述目标文本样本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;
将指针指向结束符之前在目标文本样本中顺序指向的所有位置的字符,与已知摘要信息比较,从而调整机器学习模型的参数,使指针指向结束符之前在目标文本样本中顺序指向的所有位置的字符与已知摘要信息一致。
3.根据权利要求1所述的方法,其特征在于,所述目标文本是实体全称,所述摘要信息是实体简称。
4.根据权利要求3所述的方法,其特征在于,所述获取目标文本包括:
将目标语段分解成语句;
基于分解成的语句,按照预定规则获取实体全称。
5.根据权利要求4所述的方法,其特征在于,所述预定规则包括:
将语句分成词;
识别分成的词中的地理名词和实体类型词;
针对所述语句中从识别出的地理名词开始到识别出的实体类型词之间的部分,在互联网上进行搜索;
如果搜索结果满足预定条件,确定所述部分是实体全称。
6.根据权利要求5所述的方法,其特征在于,所述预定条件包括:包含所述部分的搜索结果数目超出预定数目阈值。
7.根据权利要求5所述的方法,其特征在于,确定所述部分是实体全称还基于所述部分与实体工商登记网站信息的匹配。
8.根据权利要求7所述的方法,其特征在于,所述确定所述部分是实体全称,具体包括:
确定所述部分在互联网上搜索结果的搜索得分,该搜索得分取决于互联网上包含所述部分的搜索结果数目;
确定所述部分与实体工商登记网站信息的匹配得分,该匹配得分取决于所述部分与实体工商登记网站信息的匹配程度;
在所述搜索得分与匹配得分的加权和大于预定加权和阈值时,确定所述部分是实体全称。
9.根据权利要求4所述的方法,其特征在于,在将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息之后,所述方法还包括:
将所述目标语段中识别出的实体简称替换成所述实体全称。
10.根据权利要求4所述的方法,其特征在于,在将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息之后,所述方法还包括:
在所述目标语段中识别候选待纠正实体简称,其中,所述候选待纠正实体简称是所述目标语段中存在的连续多个字符,所述连续多个字符的每个字符都存在于获取的一个实体全称且顺序与在该实体全称中的顺序相同;
将识别出的候选待纠正实体简称替换成识别出的实体简称。
11.一种从目标文本中提取摘要信息的装置,其特征在于,包括:
目标文本获取单元,用于获取目标文本;
设置单元,用于在所述目标文本之前和之后分别设置指针和结束符;
指针位置预测单元,用于将指针的当前位置和所述目标文本输入机器学习模型,由机器学习模型预测所述目标文本中所述指针的当前位置之后指向的下一个位置,直到指向结束符;所述机器学习模型包括级联的编码网络和解码网络,编码网络和解码网络各自包括级联的门控循环单元,其中,编码网络中的每级门控循环单元与目标文本的一个字符对应,每级门控循环单元的输入为对应字符的向量、以及前一级门控循环单元的输出;解码网络中的每级门控循环单元与摘要信息的一个字符对应,每级门控循环单元的输入为对应字符的向量、以及前一级门控循环单元的输出;
摘要信息生成单元,用于将指针指向结束符之前在目标文本中指向的所有位置的字符顺序取出,作为所述摘要信息;
其中,所述指针位置预测单元预测所述目标文本中所述指针的当前位置之后指向的下一个位置,包括:
通过以下公式求所述解码网络中所述指针当前位置的字符对应的门控循环单元的输出、与所述编码网络中各门控循环单元的输出的加权和向量:
Figure FDA0003828846100000041
其中,j∈(1,……,n);n为目标文本的字符数;
Figure FDA0003828846100000042
表示解码网络中第i-1个门控循环单元的输出、与编码网络中第j个门控循环单元的输出的加权和向量;hj表示编码网络中第j个门控循环单元的输出,维数与字符向量的维数相等;di-1表示解码网络中第i-1个门控循环单元输出的向量,维数与字符向量的维数相等;W1、W2是hj和di-1相应的权重矩阵,列和行数都与字符向量的维数相等;vT是常向量v的转置,常向量v的维数与字符向量的维数相等;
基于所述加权和向量,确定预测的所述下一个位置。
12.一种语言处理引擎,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-10中的任一个所述的方法。
13.一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-10中的任一个所述的方法。
CN201811150949.4A 2018-09-29 2018-09-29 提取摘要信息的方法、装置、语言处理引擎和介质 Active CN110162617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811150949.4A CN110162617B (zh) 2018-09-29 2018-09-29 提取摘要信息的方法、装置、语言处理引擎和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811150949.4A CN110162617B (zh) 2018-09-29 2018-09-29 提取摘要信息的方法、装置、语言处理引擎和介质

Publications (2)

Publication Number Publication Date
CN110162617A CN110162617A (zh) 2019-08-23
CN110162617B true CN110162617B (zh) 2022-11-04

Family

ID=67645098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811150949.4A Active CN110162617B (zh) 2018-09-29 2018-09-29 提取摘要信息的方法、装置、语言处理引擎和介质

Country Status (1)

Country Link
CN (1) CN110162617B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN107430448A (zh) * 2015-03-24 2017-12-01 谷歌公司 针对文本录入中的自适应语言模型的反学习技术
CN108363682A (zh) * 2018-02-11 2018-08-03 广州数知科技有限公司 一种目标文本显示方法及装置
CN108388807A (zh) * 2018-02-28 2018-08-10 华南理工大学 一种支持偏好搜索和逻辑搜索的高效可验证的多关键字排序可搜索加密方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
US10372821B2 (en) * 2017-03-17 2019-08-06 Adobe Inc. Identification of reading order text segments with a probabilistic language model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN107430448A (zh) * 2015-03-24 2017-12-01 谷歌公司 针对文本录入中的自适应语言模型的反学习技术
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN108363682A (zh) * 2018-02-11 2018-08-03 广州数知科技有限公司 一种目标文本显示方法及装置
CN108388807A (zh) * 2018-02-28 2018-08-10 华南理工大学 一种支持偏好搜索和逻辑搜索的高效可验证的多关键字排序可搜索加密方法

Also Published As

Publication number Publication date
CN110162617A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
US11693894B2 (en) Conversation oriented machine-user interaction
US10956433B2 (en) Performing an operation relative to tabular data based upon voice input
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US11264023B2 (en) Using multiple modality input to feedback context for natural language understanding
US8463598B2 (en) Word detection
US11308278B2 (en) Predicting style breaches within textual content
US8073877B2 (en) Scalable semi-structured named entity detection
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
US20130060769A1 (en) System and method for identifying social media interactions
JP2019530057A (ja) 電子記録の文脈検索のためのシステム及び方法
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
WO2009026850A1 (en) Domain dictionary creation
WO2021068932A1 (zh) 基于电子书的实体关联信息的展示方法及电子设备
US10073828B2 (en) Updating language databases using crowd-sourced input
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
CN110162617B (zh) 提取摘要信息的方法、装置、语言处理引擎和介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN109933788B (zh) 类型确定方法、装置、设备和介质
Lin et al. Semi-supervised collective extraction of opinion target and opinion word from online reviews based on active labeling
Becker et al. Text Generation: A Systematic Literature Review of Tasks, Evaluation, and Challenges
Dronen Correcting writing errors with convolutional neural networks
Yeh et al. Spelling checking using conditional random fields with feature induction for secondary language learners

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant