CN106910501A

CN106910501A - 文本实体提取方法及装置

Info

Publication number: CN106910501A
Application number: CN201710107546.0A
Authority: CN
Inventors: 包恒耀; 苏可; 陈益; 饶孟良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2017-06-30
Anticipated expiration: 2037-02-27
Also published as: US11222178B2; CN106910501B; US20190278843A1; WO2018153295A1

Abstract

本发明公开了一种文本实体提取方法及装置，属于文本提取领域。该方法包括：确定目标文本中包含的候选文本实体；对候选文本实体进行组合，生成目标文本对应的候选分词组合，各个候选分词组合中包含的候选文本实体不同；计算各个候选分词组合对应的组合概率，组合概率指目标文本采用所述候选分词组合时语法成立的概率；根据组合概率确定目标文本对应的目标分词组合；根据目标分词组合从目标文本中提取文本实体。本发明实施例中文本实体的提取不依赖预设模板，缩短了前期配置所耗费时间；同时，相较于模板匹配，采用概率计算的方式确定目标分词组合的速度更快，能够避免因未查找到匹配的模板而导致文本实体提取失败的问题。

Description

文本实体提取方法及装置

技术领域

本发明实施例涉及文本提取领域，特别涉及一种文本实体提取方法及装置。

背景技术

随着人机交互技术的不断发展，越来越多的智能设备开始具备自然语言认知功能。在使用这类智能设备时，用户只需要发起自然语言指令，智能设备即能够对自然语言指令进行认知分析，并根据分析结果执行相应操作，其中，认知分析技术的核心在于如何从自然语言指令中提取特定的文本实体。比如，当接收到的自然语言指令指示播放歌曲时，智能设备需要通过认知分析技术从该自然语言指令中提取出诸如歌手名和/或歌曲名的文本实体。

在文本提取领域，从自然语言指令中提取出文本实体通常基于模板匹配实现。采用模板匹配的方式提取自然语言指令中的文本实体时，智能设备将获取到的自然语言指令与大量预设模板进行匹配，并根据匹配到的预设模板从自然语言指令中提取相应的文本实体。比如，智能设备获取到的自然语言指令为“我想听歌手A的歌曲B”，并查找到匹配的预设模板“我想听[歌手]的[歌曲]”，从而根据该模板提取到文本实体“歌手A”和“歌曲B”。

然而，由于自然语言指令的不确定性，为了达到较好的认知效果，开发人员需要预先设置大量的模板，导致在进行模板匹配时需要花费大量时间；并且，在未查找到完全匹配的模板时，智能设备将无法从自然语言指令中提取到相应文本实体。

发明内容

为了解决开发人员需要预先设置大量的模板，导致在进行模板匹配时需要花费大量时间；且在未查找到完全匹配的模板时，智能设备将无法从自然语言指令中提取到相应文本实体的问题，本发明实施例提供了一种文本实体提取方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供了一种文本实体提取方法，该方法包括：

确定目标文本中包含的候选文本实体；

对候选文本实体进行组合，生成目标文本对应的候选分词组合，各个候选分词组合中包含的候选文本实体不同；

计算各个候选分词组合对应的组合概率，组合概率指目标文本采用候选分词组合时语法成立的概率；

根据组合概率确定目标文本对应的目标分词组合；

根据目标分词组合从目标文本中提取文本实体。

根据本发明实施例的第二方面，提供了一种文本实体提取装置，该装置包括：

第一确定模块，用于确定目标文本中包含的候选文本实体；

生成模块，用于对候选文本实体进行组合，生成目标文本对应的候选分词组合，各个候选分词组合中包含的候选文本实体不同；

计算模块，用于计算各个候选分词组合对应的组合概率，组合概率指目标文本采用候选分词组合时语法成立的概率；

第二确定模块，用于根据组合概率确定目标文本对应的目标分词组合；

提取模块，用于根据目标分词组合从目标文本中提取文本实体。

通过获取目标文本中包含的候选文本实体，并对候选文本实体进行组合，生成目标文本对应的候选分词组合，从而根据各个候选分词组合对应的组合概率确定目标文本对应的目标分词组合，最终根据该目标分词组合从目标文本中提取文本实体；相较于基于预设模板进行文本实体提取，本发明实施例中文本实体的提取不依赖预设模板，缩短了前期配置所耗费时间；同时，相较于模板匹配，采用概率计算的方式确定目标分词组合的速度更快，能够避免因未查找到匹配的模板而导致文本实体提取失败的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供实施环境的示意图；

图2是一个实施例提供的文本实体提取方法的原理示意图；

图3示出了本发明一个实施例提供的文本实体提取方法的流程图；

图4A示出了本发明另一个实施例提供的文本实体提取方法的流程图；

图4B是图4A所示文本实体提取方法所涉及的组合概率计算过程的流程图；

图4C是候选分词组合中N元组划分过程的实施示意图；

图4D示出了本发明再一个实施例提供的文本实体提取方法的流程图；

图5示出了本发明一个实施例提供的文本实体提取装置的结构方框图；

图6示出了本发明一个实施例提供的服务器的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了方便理解，下面对本发明实施例中涉及的名词进行解释。

文本：指由若干文字组成的文字字符串，本发明实施例中涉及的文本特指短文本。短文本指仅包含少量句子的自然语言文本，在人机交互领域，该短文本通常指用户发出的自然语言指令。比如，该短文本可以为：我想听歌手A的演唱的歌曲B；查一下北京明天的天气等等。

文本实体：文本实体用于指示文本中特定类型或具有特定含义的词语。比如，文本“我想听歌手A的演唱的歌曲B”中包含文本实体“歌手A”和“歌曲B”。

N-Gram(N-Grammar，N元文法)模型：N-Gram模型是一种用于计算文本文法成立概率的模型。N-Gram模型基于如下假设：文本中文本元素的出现概率只与前面N-1个文本元素相关，而与文本中其他文本元素无关，且整个文本的文法成立概率为各个文本元素的出现概率的乘积。

本发明实施例中，N-Gram模型用于指示N个文本元素按序组合的概率，该概率通过统计语料资源中N个文本元素同时出现的次数得到。比如，N-Gram模型用于指示文本元素“我”和“想”按照“我想”这一顺序组合的概率，或，按照“想我”这一顺序组合的概率。常见的N-Gram模型包括二元的Bi-Gram模型和三元的Tri-Gram模型。

请参考图1，其示出了本发明一个实施例提供实施环境的示意图，该实施环境中包括智能设备110和服务器120。

智能设备110是具有数据处理功能的电子设备。该电子设备为智能手机、平板电脑、智能音箱、可穿戴式智能设备或智能家居设备。在一种可能的实施方式中，智能设备110具有自然语言认知分析功能，即智能设备110能够根据接收到的自然语言指令执行相应操作，其中，该自然语言指令为用户发起的语音指令或用户输入的文字指令。比如，当智能设备110为智能音箱时，智能音箱能够根据用户的语音指令执行播放音乐、查询天气等操作；当智能设备110位智能家居设备时，智能家居设备能够根据用户的语音指令提供相应的智能家居服务。

智能设备110与服务器120之间通过有线或无线网络相连。

服务器120为智能设备110的后台服务器。该后台服务器为若干台服务器构成的服务器集群或云计算中心。在一种可能的实施方式中，服务器110用于根据语料资源生成N-Gram模型，并向各个智能设备110提供该N-Gram模型，以便智能设备110根据该N-Gram模型从自然语言指令中提取文本实体(即自然语言认知分析)，从而根据提取出的文本实体执行相应操作。同时，服务器110还用于接收各个智能设备110收集到的用户语料数据，并根据该用户语料数据对N-Gram模型进行优化，进而向智能设备110提供优化后的N-Gram模型。

在其他可能的实施方式中，智能设备110还用于将获取到的自然语言指令发送至服务器120，由服务器120根据训练生成的N-Gram模型提取自然语言指令中包含的文本实体，并将提取出的文本实体返回至智能设备110，以便智能设备110根据该文本实体执行相应操作。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本发明各个实施例提供的文本实体提取方法，用于智能设备110或服务器120中，为了方便描述，下述各个实施例以该文本实体提取方法用于服务器120为例进行说明，并不对本发明构成限定。

与基于模板匹配不同的是，如图2所示，本发明实施例涉及的文本实体提取方法主要分为模型训练阶段210和文本实体提取阶段220。其中，在模型训练阶段210，服务器通过对预设语料资源进行分析统计，训练生成N-Gram模型，其中，该预设语料资源为预设模板和携带标注的语料数据中的至少一种；在文本实体提取阶段220，服务器首先根据实体库确定目标文本中包含的候选文本实体，并根据确定出的候选文本实体构建候选分词组合，然后根据模型训练阶段210训练得到的N-Gram模型计算各个候选分词组合的概率，进而根据各个候选分词组合的概率确定出目标分词组合，并最终根据目标分词组合从目标文本中提取出文本实体。下面采用示意性的实施例进行说明。

请参考图3，其示出了本发明一个实施例提供的文本实体提取方法的流程图，本实施例以该文本实体提取方法用于图1所示的服务器120为例进行说明，该方法包括：

步骤301，确定目标文本中包含的候选文本实体。

可选的，该目标文本由智能设备根据接收到的自然语言语音指令转换得到。

可选的，服务器根据目标文本所属的目标领域，确定目标文本中包含的候选文本实体，以及各个候选文本实体对应的实体类型。

比如，当目标文本所属的目标领域为音乐领域时，服务器确定出的候选文本实体包括歌手A、歌手a和歌曲B，其中，歌手A和歌手a对应的实体类型为歌手名，歌曲B对应的实体类型为歌曲名。

步骤302，对候选文本实体进行组合，生成目标文本对应的候选分词组合，各个候选分词组合中包含的候选文本实体不同。

确定出候选文本实体后，服务器进一步对候选文本实体进行组合，生成目标文本对应的若干种候选分词组合，即目标文本对应的若干种分词方式。

在一种可能的实施方式中，服务器将不同实体类型的候选文本实体进行排列组合，从而生成覆盖所有组合方式的候选文本实体组合。

比如，服务器确定出的候选文本实体包括歌手A、歌手a(歌手A和歌手a的实体类型均为歌手名)和歌曲B(实体类型为歌曲名)，并生成5种候选文本实体组合，这5种候选文本实体组合分别为：(歌手A)、(歌手a)、(歌曲B)、(歌手A，歌曲B)和(歌手a，歌曲B)。

步骤303，计算各个候选分词组合对应的组合概率，组合概率指目标文本采用候选分词组合时语法成立的概率。

可选的，针对各个候选分词组合，服务器根据预先训练的N-Gram模型计算各个候选分词组合对应的组合概率，其中，该组合概率用于指示目标文本采用候选分词组合时语法成立的概率，且组合概率越高，表示目标文本采用该候选分词组合时语法成立的概率越高，即目标文本采用该候选分词组合进行分词的准确性越高，更符合目标文本的实际语义。

步骤304，根据组合概率确定目标文本对应的目标分词组合。

可选的，服务器比较各个候选分词组合对应的组合概率，并将组合概率最高的候选分词组合确定为目标文本对应的目标分词组合，即确定目标文本采用语法成立概率最高的候选分词组合进行分词。

步骤305，根据目标分词组合从目标文本中提取文本实体。

可选的，服务器根据目标分词组合从目标文本中提取相应的文本实体后，将该文本实体反馈给智能设备，以便智能设备根据该文本实体执行相应操作。

比如，服务器从目标文本中提取到文本实体歌手A和歌曲B，并反馈给智能音箱，智能音箱则根据接收到文本实体播放歌手A演唱的歌曲B。

在实际实施过程中，服务器首先需要构建不同领域的实体库，并根据少量语料资源训练N-Gram模型；在文本实体提取阶段，服务器即根据实体库确定目标文本中包含的候选文本实体，并利用训练生成的N-Gram模型计算各个候选分词组合的组合概率。下面采用示意性的实施进行说明。

请参考图4A，其示出了本发明另一个实施例提供的文本实体提取方法的流程图，本实施例以该文本实体提取方法用于图1所示的智能设备110为例进行说明，该方法包括：

步骤401，获取预设语料资源，预设语料资源包括预设模板和携带标注的语料数据中的至少一种。

其中，该预设模板为开发人员手动编写的少量模板；语料数据为服务器从网络中抓取的网络语料数据，或由智能设备上报的用户语料数据，语料数据中携带的标注用于指示语料中的实体以及实体所属的实体类别。

在一种可能的实施方式中，在可用语料数据较少的情况下，服务器获取开发人员手动编写的少量预设模板；而随着语料数据的增多，服务器获取预设模板的同时，获取智能设备上报的用户语料数据(携带标注)。

可选的，不同领域对应的预设语料资源不同。比如，针对音乐领域，该预设语料资源中包括音乐相关的预设模板和/或携带标注的音乐相关的语料数据；针对智能家居领域，该预设语料资源中包括智能家居控制指令相关的预设模板和/或携带标注的智能家居设备相关的语料数据。

示意性的，针对音乐领域，服务器获取到开发人员手动编写的预设模板包括：

(1)、我想听[singer]的[song]

(2)、[song]是谁唱的

(3)、[album]里有[song]吗

(4)、[song]的演唱者是谁

其中，文本实体[singer]用于指示歌手名，文本实体[song]用于指示歌曲名，文本实体[album]用于指示专辑名。

为了方便描述，本实施例均基于上述示例进行举例说明，并不对本发明构成限定。

步骤402，根据预设语料资源训练N-Gram模型，N-Gram模型用于指示N个文本元素按序组合的概率，文本元素为文本中的字或词，N≥2，N为正整数。

可选的，针对不同领域的预设语料资源，服务器生成各个领域各自对应的N-Gram模型。

在一种可能的实施方式中，服务器获取到的预设语料资源中包含预设模板，服务器即统计预设模板中N个文本元素同时出现的第一次数，并统计N个文本元素按不同顺序组合的第二次数，从而根据第一次数和第二次数计算出N个文本元素按序组合的概率。

比如，服务器统计到预设模板中“我”和“想”这两个文本元素(均为字)同时出现的次数为1，且按照“我想”这一顺序组合的次数为1，则“我”和“想”这两个文本元素按照“我想”这一顺序组合的概率为1/1＝1.0。

又比如，服务器统计到预设模板中“[song]”和“的”这两个文本元素(前者为词，后者为字)同时出现的次数为2，且按照“[song]的”这一顺序组合的次数为1，则“[song]”和“的”这两个文本元素按照“[song]的”这一顺序组合的概率为1/2＝0.5。

可选的，当获取到携带标注的语料数据时，服务器根据该语料数据对生成的N-Gram模型进行优化，提高N-Gram模型的精度，从而达到更好的文本实体提取效果。

步骤403，确定目标文本所属的目标领域。

由于不同领域对应的实体库不同，因此，为了提高后续确定候选文本实体的准确性，服务器获取到目标文本后，首先确定该目标文本所属的目标领域，并进一步根据该目标领域对应的实体库确定处目标文本中包含的候选文本实体。

在一种可能的实施方式中，服务器获取到目标文本后，识别该目标文本中包含的关键词，并根据该关键词确定目标文本所属的目标领域。

比如，服务器获取到的目标文本为“我想听周杰伦的七里香”，并识别出目标文本中包含关键词“听”，从而确定目标领域为音乐领域。

在其他可能的实施方式中，服务器还可以根据智能设备所提供的服务确定该目标文本所属的目标领域，本发明实施例并不对服务器确定目标领域的具体方式进行限定。

步骤404，根据目标领域对应的实体库确定目标文本中包含的候选文本实体。

进一步的，确定目标文本所属的目标领域后，服务器获取该目标领域对应的实体库，并根据该实体库确定目标文本中包含的候选文本实体。其中，该实体库中包含大量目标领域的相关词汇。

比如，服务器确定出目标领域为音乐领域，并获取音乐相关的实体库，其中，该实体库包括歌手实体库(包含大量歌手名)、歌曲实体库(包含大量歌名)和专辑实体库(包含大量专辑名)。

在一种可能的实施方式中，为了提高确定候选文本实体的速度，服务器采用字典树(Trie Tree)确定目标文本中包含的候选文本实体。

示意性的，服务器根据歌手实体库和歌名实体库，确定目标文本“我想听张晓四的长江颂”中包含的候选文本实体分别为张晓(歌手名)、张晓四(歌手名)、长江颂(歌曲名)。

步骤405，对候选文本实体进行组合，生成目标文本对应的候选分词组合，各个候选分词组合中包含的候选文本实体不同。

确定出目标文本中包含的所有候选文本实体后，服务器对候选文本实体进行组合，并基于组合后的候选文本实体生成目标文本对应的若干种候选分词组合，即目标文本对应的若干种分词方式。

示意性的，服务器获取到目标文本为“我想听张晓四的长江颂”，并确定出候选文本实体包括“张晓”、“张晓四”和“长江颂”，则生成目标文本对应的候选分词组合如表一所示。

表一

编号	候选分词组合	[singer]	[song]
				1	我想听[singer]的长江颂	张晓四	-
2	我想听[singer]四的长江颂	张晓	-
				3	我想听张晓四的[song]	-	长江颂
4	我想听[singer]的[song]	张晓四	长江颂
				5	我想听[singer]四的[song]	张晓	长江颂

其中，编号为1的候选分词组合中包含的候选文本实体为“张晓四”；编号为2的候选分词组合中包含的候选文本实体为“张晓”；编号为3的候选分词组合中包含的候选文本实体为“长江颂”；编号为4的候选分词组合中包含的候选文本实体为“张晓四”和“长江颂”；编号为5的候选分词组合中包含的候选文本实体为“张晓”和“长江颂”。

步骤406，获取N-Gram模型。

生成目标文本对应的候选分词组合后，服务器获取上述步骤402训练得到的N-Gram模型。

步骤407，根据N-Gram模型计算各个候选分词组合对应的组合概率。

进一步的，服务器根据N-Gram模型计算各个候选分词组合对应的组合概率，即计算目标文本采用相应候选分词组合时的语法成立概率。

在一种可能的实施方式中，由于N-Gram模型用于指示N个文本元素按序组合的概率，因此，在计算候选分词组合的组合概率时，服务器将候选分词组合中的文本元素划分为若干个N元组，并根据各个N元组各自对应的概率计算该候选分词组合的概率。如图4B所示，本步骤包括如下步骤。

步骤407A，将L个文本元素中相邻的N个文本元素划分至同一N元组，L个文本元素中包含L-N+1个N元组。

如图4C所示，目标文本对应的一个候选分词组合中包括L个文本元素41(序号分别为1至L)，L个文本元素中包括候选文本实体，以及除候选文本实体以外目标文本中的文本内容(字或词)。

服务器将L个文本元素中相邻的N个文本元素划分为同一N元组，从而生成L-N+1个N元组。

如图4C所示，服务器将L个文本元组中相邻的2个文本元素划分为同一二元组，从而生成L-1个二元组。

示意性的，对于表一中编号为4的候选分词组合“我想听[singer]的[song]”，该候选分词组合中包含6个文本元素，分别为“我”、“想”、“听”、“[singer]”、“的”、“[song]”。服务器将6个文本元素中相邻的2个文本元素划分至同一二元组，得到5个二元组，分别为(我，想)、(想，听)、(听，[singer])、([singer]，的)、(的，[song])。

在其他可能的实施方式中，服务器还可以将两个以上相邻的文本元素划分为同一N元组，本实施例仅以划分为二元组为例进行示意性说明，并不对本发明构成限定。

步骤407B，根据N-Gram模型确定各个N元组对应的第一概率，得到L-N+1个第一概率。

进一步的，服务器根据训练的N-Gram模型，确定划分出的各个N元组对应的第一概率。

当N-Gram模型仅由少量预设模板训练而成时，N-Gram模型的精度较低，且覆盖的N元组较少，相应的，服务器可能无法在从N-Gram模型中查找到与划分出的N元组相匹配的N元组，进而无法确定该N元组对应的第一概率。为了使该N-Gram模型具有一定的范化能力，在一种可能的实施方式中，当N-Gram模型中包含与划分出的N元组相匹配的N元组时，服务器则根据该N-Gram模型确定该N元组的第一概率；当N-Gram模型中不包含与划分出的N元组相匹配的N元组时，服务器则通过下述步骤407C确定该N元组对应的第一概率。

步骤407C，若N-Gram模型中不包含该N元组对应的第一概率，则将预设概率值确定为N元组对应的第一概率。

若N-Gram模型中不包含划分出的N元组对应的第一概率，服务器则将预设概率值确定为该N元组对应的第一概率，其中，该预设概率值通常较小，比如该预设概率值为10^-6。

步骤407D，根据L-N+1个第一概率计算候选分词组合对应的组合概率。

通过上述步骤407A至407C，服务器计算得到个N元组各自对应的第一概率。

可选的，在计算候选分词组合对应的组合概率时，服务器获取第i-N+1个文本元素至第i个文本元素所构成的N元组对应的第一概率(共获取到L-N+1个)，并对获取到的各个第一概率进行累乘，从而将累乘结果确定为候选分词组合对应的组合概率。

在一种可能的实施方式中，服务器根据L-N+1个第一概率，通过概率计算公式计算候选分词组合对应的组合概率，该概率计算公式为：

其中，p(s)为组合概率，p(w_i|w_i-1|...|w_i-N+1)为第i-N+1个文本元素至第i个元素所构成的N元组对应的第一概率，N≤i≤L，i为正整数。

结合上述步骤407B中所示的实施例，编号为4的候选分词组合对应的组合概率即为p(想|我)×p(听|想)×p([singer]|听)×p(的|[singer])×p([song]|的)。

服务器重复上述步骤407B至407D，计算得到目标文本对应的各个候选分词组合的组合概率。

示意性的，服务器计算得到各个候选分词组合的组合概率如表二所示，

表二

编号	候选分词组合	[singer]	[song]	组合概率
					1	我想听[singer]的长江颂	张晓四	-	0.08
2	我想听[singer]四的长江颂	张晓	-	0.02
					3	我想听张晓四的[song]	-	长江颂	0.07
4	我想听[singer]的[song]	张晓四	长江颂	0.14
					5	我想听[singer]四的[song]	张晓	长江颂	0.04

步骤408，根据组合概率确定目标文本对应的目标分词组合。

根据计算得到各个组合概率，服务器确定目标文本对应的目标分词组合，其中，目标文本采用目标分词组合时语法成立的概率最高，即采用目标分词组合进行分词更符合目标文本的实际语义。

在一种可能的实施方式中，在图4A的基础上，如图4D所示，本步骤包括如下步骤。

步骤408A，将组合概率中值最大的组合概率对应的候选分词组合确定为目标分词组合。

比如，结合表二所示，编号为4的候选分词组合对应的组合概率的值最大，服务器即将该“我想听[singer]的[song]”确定为目标分词组合。

步骤408B，检测组合概率中值最大的组合概率是否大于预设概率阈值；若值最大的组合概率大于预设概率阈值，则将值最大的组合概率对应的候选分词组合确定为目标分词组合。

为了进一步提高文本实体提取的准确性，服务器获取到值最大的组合概率后，进步检测该值最大的组合概率是否大于预设概率阈值。若值最大的组合概率大于预设概率阈值，则将值最大的组合概率对应的候选分词组合确定为目标分词组合；若值最大的组合概率小于预设概率阈值(即使用最大组合概率对应的候选分词组合进行分词，也无法表达出目标文本的实际含义)，则停止从目标文本中提取文本实体。

比如，当预设概率阈值为0.005，且计算得到各个候选分词组合对应的组合概率分别为0.004、0.0001和0.0015时，由于值最大的组合概率(即0.004)小于预设概率阈值，因此，确定无法从目标文本中提取文本实体。

可选的，对于无法提取文本实体的目标文本，服务器将该目标文本交由人工处理，并接收人工标注的文本实体。

步骤409，根据目标分词组合从目标文本中提取文本实体。

可选的，服务器根据目标分词组合所指示的分词方式，从目标文本中提取相应的文本实体。

比如，结合上述实施例，服务器根据目标分词组合“我想听[singer]的[song]所指示的分词方式，从目标文本“我想听张晓四的长江颂”中提取出文本实体“张晓四”和“长江颂”。

可选的，服务器对提取出的文本实体进行合法性校验和/或关联性校验，并在文本实体合法和/或文本实体关联时，向智能设备反馈文本实体，以便智能设备根据文本实体执行相应操作。

本实施例中，服务器根据少量语料资源生成N-Gram模型，并利用该N-Gram模型计算各个候选分词组合的组合概率，从而避免前期配置大量匹配模板，适用于语料资源较少的初期阶段。

本实施例中，服务器在确定候选文本实体前，预先确定目标文本所属的目标领域，从而利用目标领域对应的实体库挖掘目标文本中包含的候选文本实体，进而提高确定出的候选文本实体的准确性。

下述为本发明装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图5，其示出了本发明一个实施例提供的文本实体提取装置的结构方框图。该文本实体提取装置通过硬件或者软硬件的结合实现成为图1中服务器120的全部或者一部分。该文本实体提取装置包括：第一确定模块510、生成模块520、计算模块530、第二确定模块540和提取模块550。

第一确定模块510，用于实现上述步骤301的功能；

生成模块520，用于实现上述步骤302或405的功能；

计算模块530，用于实现上述步骤303的功能；

第二确定模块540，用于实现上述步骤304或408的功能；

提取模块550，用于实现上述步骤305或409的功能。

可选的，该装置还包括：获取模块和训练模块；

获取模块，用于实现上述步骤401的功能；

训练模块，用于实现上述步骤402的功能；

计算模块530，包括：获取单元和计算单元；

获取单元，用于实现上述步骤406的功能；

计算单元，用于实现上述步骤407的功能。

可选的，候选分词组合中包含L个文本元素，L个文本元素中包括候选文本实体，以及候选文本实体外目标文本中的文本内容；

计算单元，还用于实现上述步骤407A至407D的功能。

可选的，第一确定模块510，包括：第一确定单元和第二确定单元；

第一确定单元，用于实现上述步骤403的功能；

第二确定单元，用于实现上述步骤404的功能。

可选的，第二确定模块540，包括：第三确定单元和第四确定单元；

第三确定单元，用于实现上述步骤408A的功能；

第四确定单元，用于实现上述步骤408B的功能。

请参考图6，其示出了本发明一个实施例提供的服务器的结构方框图。该服务器600实现为上述实施例的文本实体提取装置。具体来讲：

服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说，所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本发明的各种实施例，所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的文本实体提取方法的指令。

本领域普通技术人员可以理解上述实施例的文本实体提取方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本实体提取方法，其特征在于，所述方法包括：

确定目标文本中包含的候选文本实体；

对所述候选文本实体进行组合，生成所述目标文本对应的候选分词组合，各个所述候选分词组合中包含的候选文本实体不同；

计算各个所述候选分词组合对应的组合概率，所述组合概率指所述目标文本采用所述候选分词组合时语法成立的概率；

根据所述组合概率确定所述目标文本对应的目标分词组合；

根据所述目标分词组合从所述目标文本中提取文本实体。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取预设语料资源，所述预设语料资源包括预设模板和携带标注的语料数据中的至少一种；

根据所述预设语料资源训练N元文法N-Gram模型，所述N-Gram模型用于指示N个文本元素按序组合的概率，所述文本元素为文本中的字或词，N≥2，N为正整数。

3.根据权利要求2所述的方法，其特征在于，所述计算各个所述候选分词组合对应的组合概率，包括：

获取所述N-Gram模型；

根据所述N-Gram模型计算各个所述候选分词组合对应的所述组合概率。

4.根据权利要求3所述的方法，其特征在于，所述候选分词组合中包含L个所述文本元素，L个所述文本元素中包括所述候选文本实体，以及所述候选文本实体外所述目标文本中的文本内容；

所述根据所述N-Gram模型计算所述候选分词组合对应的所述组合概率，包括：

将L个所述文本元素中相邻的N个文本元素划分至同一N元组，L个所述文本元素中包含L-N+1个所述N元组；

根据所述N-Gram模型确定各个所述N元组对应的第一概率，得到L-N+1个第一概率；

根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率。

5.根据权利要求4所述的方法，其特征在于，所述根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率之前，还包括：

若所述N-Gram模型中不包含所述N元组对应的第一概率，则将预设概率值确定为所述N元组对应的所述第一概率。

6.根据权利要求4或5所述的方法，其特征在于，所述根据所述L-N+1个第一概率计算所述候选分词组合对应的所述组合概率，包括：

获取第i-N+1个文本元素至第i个文本元素所构成的N元组对应的第一概率，N≤i≤L，i为正整数；

对获取到的L-N+1个第一概率进行累乘，并将累乘结果确定为所述候选分词组合对应的所述组合概率。

7.根据权利要求1至5任一所述的方法，其特征在于，所述确定目标文本中包含的候选文本实体，包括：

确定所述目标文本所属的目标领域；

根据所述目标领域对应的实体库确定所述目标文本中包含的候选文本实体。

8.根据权利要求1至5任一所述的方法，其特征在于，所述根据所述组合概率确定所述目标文本对应的目标分词组合，包括：

将所述组合概率中值最大的组合概率对应的所述候选分词组合确定为所述目标分词组合；

或，

检测所述组合概率中值最大的组合概率是否大于预设概率阈值；若所述值最大的组合概率大于所述预设概率阈值，则将所述值最大的组合概率对应的所述候选分词组合确定为所述目标分词组合。

9.一种文本实体提取装置，其特征在于，所述装置包括：

第一确定模块，用于确定目标文本中包含的候选文本实体；

生成模块，用于对所述候选文本实体进行组合，生成所述目标文本对应的候选分词组合，各个所述候选分词组合中包含的所述候选文本实体不同；

计算模块，用于计算各个所述候选分词组合对应的组合概率，所述组合概率指所述目标文本采用所述候选分词组合时语法成立的概率；

第二确定模块，用于根据所述组合概率确定所述目标文本对应的目标分词组合；

提取模块，用于根据所述目标分词组合从所述目标文本中提取文本实体。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

获取模块，用于获取预设语料资源，所述预设语料资源包括预设模板和携带标注的语料数据中的至少一种；

训练模块，用于根据所述预设语料资源训练N元文法N-Gram模型，所述N-Gram模型用于指示N个文本元素按序组合的概率，所述文本元素为文本中的字或词，N≥2，N为正整数。

11.根据权利要求10所述的装置，其特征在于，所述计算模块，包括：

获取单元，用于获取所述N-Gram模型；

计算单元，用于根据所述N-Gram模型计算各个所述候选分词组合对应的所述组合概率。

12.根据权利要求11所述的装置，其特征在于，所述候选分词组合中包含L个所述文本元素，L个所述文本元素中包括所述候选文本实体，以及所述候选文本实体外所述目标文本中的文本内容；

所述计算单元，还用于：

13.根据权利要求12所述的装置，其特征在于，

所述计算单元，还用于当所述N-Gram模型中不包含所述N元组对应的第一概率时，将预设概率值确定为所述N元组对应的所述第一概率。

14.根据权利要求12或13所述的装置，其特征在于，

所述计算单元，还用于获取第i-N+1个文本元素至第i个文本元素所构成的N元组对应的第一概率，N≤i≤L，i为正整数；

15.根据权利要求9至13任一所述的装置，其特征在于，所述第一确定模块，包括：

第一确定单元，用于确定所述目标文本所属的目标领域；

第二确定单元，用于根据所述目标领域对应的实体库确定所述目标文本中包含的候选文本实体。

16.根据权利要求9至13任一所述的装置，其特征在于，所述第二确定模块，包括：

第三确定单元，用于将所述组合概率中值最大的组合概率对应的所述候选分词组合确定为所述目标分词组合；

或，

第四确定单元，用于检测所述组合概率中值最大的组合概率是否大于预设概率阈值；若所述值最大的组合概率大于所述预设概率阈值，则将所述值最大的组合概率对应的所述候选分词组合确定为所述目标分词组合。