CN111222328A

CN111222328A - 标签提取方法、装置和电子设备

Info

Publication number: CN111222328A
Application number: CN201811469780.9A
Authority: CN
Inventors: 叶君健; 薛璐影
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2020-06-02
Anticipated expiration: 2038-11-26
Also published as: CN111222328B

Abstract

本发明公开了一种标签提取方法、装置和电子设备，其中，方法包括：对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词；获取所述分词序列中每个分词的左熵和右熵；对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系；根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合；根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。该方法结合分词的左熵和右熵以及依赖关系，能实现词与词进行组合得到具有一定语义信息的较长的标签的提取，提高了标签提取的准确性，从而方便用户更加深刻的理解和运用文本数据。

Description

标签提取方法、装置和电子设备

技术领域

本发明涉及信息技术领域，尤其涉及一种标签提取方法、装置和电子设备。

背景技术

标签是从文本数据中提取具有语义信息和价值的词组，是描述文本数据的关键特征。基于标签，用户可以深刻的理解和运用文本数据，从而更好地组织文本数据或结构化文本数据，更好地将文本数据被应用到诸如知识图谱、内容分发等业务中。

相关技术中，利用左右信息熵算法进行标签提取，通过计算文本数据中每个词的左右信息熵，左右信息熵越高，说明该词在文档中越重要。由此可知，左右信息熵算法是判断文本数据中的每个词是否可以选为标签，也即左右信息熵算法适用于提取语义信息较短的标签，并不能实现词与词进行组合得到具有一定语义信息的较长的标签的提取。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种标签提取方法，对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词；获取所述分词序列中每个分词的左熵和右熵；对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系；根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合；根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。该方法结合分词的左熵和右熵以及依赖关系，能实现词与词进行组合得到具有一定语义信息的较长的标签的提取，提高了标签提取的准确性，从而方便用户更加深刻的理解和运用文本数据。

本发明的第二个目的在于提出一种标签提取装置。

本发明的第三个目的在于提出一种电子设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种标签提取方法，对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词；获取所述分词序列中每个分词的左熵和右熵；对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系；根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合；根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。

本发明实施例的标签提取方法，结合分词的左熵和右熵以及依赖关系进行标签提取，能实现词与词进行组合得到具有一定语义信息的较长的标签的提取，提高了标签提取的准确性，从而方便用户更加深刻的理解和运用文本数据。

为达上述目的，本发明第二方面实施例提出了一种标签提取装置，包括：

分词模块，用于对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词；

获取模块，用于获取所述分词序列中每个分词的左熵和右熵；

依存分析模块，用于对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系；

分组模块，用于根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合；

确定模块，用于根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。

本发明实施例的标签提取装置，结合分词的左熵和右熵以及依赖关系进行标签提取，能实现词与词进行组合得到具有一定语义信息的较长的标签的提取，提高了标签提取的准确性，从而方便用户更加深刻的理解和运用文本数据。

为达上述目的，本发明第三方面实施例提出了一种电子设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述实施例描述的标签提取方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，该程序被处理器执行时实现如上述实施例描述的标签提取方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如上述实施例描述的标签提取方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的标签提取的流程图；

图2是根据本发明示例性的依存分析结果图；

图3是根据本发明另一个实施例的标签提取方法的流程图；

图4是根据本发明又一个实施例的标签提取方法的流程图；

图5是根据本发明一个实施例的标签提取装置的结构示意图；

图6是根据本发明另一个实施例的标签提取装置的结构示意图；

图7为本发明实施例提供的执行标签提取方法的电子设备的硬件结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于标签提取方法、装置及电子设备。

图1是根据本发明一个实施例的标签提取方法的流程图。

如图1所示，该标签提取方法可以包括：

步骤101，对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词。

在本实施例中，在对待处理的文本数据进行分词之后，根据各个分词在文本数据中的先后顺序输出由各个分词组成的分词序列。

举例来说，待处理的文本数据为：首字母填空专项-练习，进行分词后，得到的各个分词分别为：首、字母、填空、专项、-、练习，分词序列则由首、字母、填空、专项、-、练习这几个分词按在文本中出现的先后顺序排列组合而成。

步骤102，获取所述分词序列中每个分词的左熵和右熵。

具体地，信息熵表示不确定性，信息熵越大，不确定越大。对于分词来说，某个分词的左熵越大，说明该分词左边可以搭配的词语越丰富，同理，某个分词的右熵越大，说明该分词右边可以搭配的词语越丰富。

分词的左熵的计算流程为：统计对一个分词左边所有可能的词以及词频，计算各个组合词信息熵，然后求和。同理，分词的右熵的计算流程为：统计一个分词右边所有可能的词以及词频，计算各个组合词的信息熵，然后求和。

举例来说，句子1：“系统对输入的文本进行分词后”，句子2：“对分词结果计算互信息”，对句子1、句子2进行分词，得到的分词结果为：“系统”、“对”、“输入”、“的”、“文本”、“进行”、“分词”、“后”、“结果”、“计算”、“互信息”。对每个词，比如“分词”，它的左边有“进行”和“对”两个词，它的右边则有“后”和“结果”两个词。则计算“分词”的左熵的过程为：统计“进行”、“对”的词频，依次计算“进行分词”的信息熵以及“对分词”的信息熵，将“进行分词”的信息熵和“对分词”的信息熵进行相加求和，得到的结果即为“分词”的左熵。右熵的计算过程同左熵的计算过程，在此不再赘述。同时，关于左熵和右熵更多介绍参见相关技术，在此不再赘述。

步骤103，对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系。

具体地，通过依存分析能够描述出各个词语之间的依赖关系，也即指出了词语之间在句法上的搭配关系。在实际操作中，可以通过基于序列标注的依存句法分析模型获取各个分词的依赖关系，但并不以此为限。

图2是根据本发明示例性的依存分析结果图。以图2为例，对于输入文本：首字母填空专项-练习，经过依存分析，得到如下图2的分析结果：

图2中第一行为序号，第二行为分词结果，第三行为依赖关系。在图2中画出了依赖关系，比如词语“首”序号为1，它依赖的词序号为2，也就是“字母”；词语“字母”序号为2，它依赖的词序号为3，也就是“填空”；词语“填空”序号为2，它依赖的词序号为5，也就是“练习”。

步骤104，根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合。

在本实施例中，在确定分词与分词之间的依赖关系之后，就可以利用依赖关系对分词序列进行分割。分词集合中各个分词在句法上存在搭配关系，由分词集合中的各个分词组合成标签的可能性比较大，也即可将分词集合中的各个分词可以看成是候选标签。

在一种可能的实现方式中，步骤104的具体实现方式为：根据所述依赖关系，依次确定所述分词序列中相邻两个分词之间是否存在依赖关系；若相邻的两个分词之间存在依赖关系，则将相邻的两个分词划分到同一个分词集合中；若相邻的两个分词之间不存在依赖关系，则将相邻的两个分词划分到不同的分词集合中。

具体地，分词序列是多个分词按照分词顺序排列组合得到的，在对分词序列进行依存分析之后，若判断出某个分词与其邻接词存在依赖关系，则在该分词与其邻接词之间不进行分割，将某个分词与其邻接词均划分到同一的分词集合中。若判断出某个分词与其邻接词不存在依赖关系，则在该分词与其邻接词之间进行分割，将某个分词与其邻接词分别划分到不同的分词集合。

举例来说，在图2中，对分词序列:首字母填空专项-练习，“填空”与“专项”之间不存在依赖关系，“练习”与“-”之间不存在依赖关系，则分词序列被分割为三个分词集合。其中，第一个分词集合包括“首”、“字母”、“填空”三个分词，第二个分词集合包括“专项”、“练习”两个分词，第三个分词集合包括“-”、“学案”两个分词。

步骤105，根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。

本发明实施例提供的标签提取方法，通过对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词；获取所述分词序列中每个分词的左熵和右熵；对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系；根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合；根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。该方法结合分词的左熵和右熵以及依赖关系，能实现词与词进行组合得到具有一定语义信息的较长的标签的提取，提高了标签提取的准确性，从而方便用户更加深刻的理解和运用文本数据。

针对一个分词集合，通过对该分词集合中第一个分词的左熵以及最后一个分词的右熵的判断，确定该分词集合是否可以组合成一个标签。

在本发明的一个实施例中，在图1所示的基础上，如图3所示，图1中的步骤105的可能的实现方式为：

步骤11，判断所述分词集合中第一个分词的左熵以及最后一个分词的右熵是否均大于第一预设阈值。

步骤12，若判断获知所述分词集合中第一个分词的左熵以及最后一个分词的右熵均大于第一预设阈值，则对所述分词集合中的分词进行拼接，以得到所述目标标签。

具体地，若分词的左熵或右熵越大，说明该分词的左边或右边可以搭配的词越丰富。在实际操作中，可以根据经验设定阈值，通过分词的左熵或右熵与阈值的比较，来判断该分词的左边或右边是否可以搭配更丰富的词。

在本实施例中，如果一个分词集合的左右可以搭配的词越丰富，说明该分词集合可以作为一个标签。在实际操作中，通过对分词集合的第一个分词的左熵、最后一个分词的右熵的判断，实现判断分词集合是否可以组合成一个标签。

具体地，第一个分词的左熵越大，说明第一个分词的左边可以搭配的词越丰富；同理，最后一个分词的右熵越大，说明最后一个分词的右边可以搭配的词越丰富。在本实施例中，根据经验设定第一预设阈值，若第一个分词的左熵、最后一个分词的右熵均大于第一预设阈值，说明该分词集合可以组合成一个标签，反之，说明该分词集合不可以组合成一个标签。

举例来说，对包括“首”、“字母”、三个分词的分词集合，根据经验设定第一预设阈值为2，“首”的左熵和“填空”的右熵都大于2，则认为该分词集合可以组合成一个标签，该标签为“首字母填空”。

需要说明的是，若第一分词的左熵大于第一预设阈值，还可以表示第一个分词可以单独作为一个标签出现。同理，若最后一个分词的右熵大于第一预设阈值，也可以表示最后一个分词作为一个标签出现。

针对多个分词集合，若其中有至少一个分词集合可以成为一个标签，对能成为一个标签的任意两个分词集合，判断该两个分词集合是否可以拼接组合成一个新的标签。

步骤21，根据每个所述分词集合中的第一个分词的左熵以及最后一个分词的右熵，分别确定每个所述分词集合是否可组成标签。

在一种可能的实现方式中，步骤21的具体实现方式为：

步骤211，针对每个分词集合，判断对应分词集合中第一个分词的左熵以及最后一个分词的右熵是否均大于第一预设阈值，若判断结果为是，执行步骤212，若判断结果为是，执行步骤213；

步骤212，若判断获知所述对应分词集合中第一个分词的左熵以及最后一个分词的右熵均大于第一预设阈值，则确定所述对应分组集合可组成标签；

步骤213，若判断获知所述对应分词集合中的第一个分词的左熵和/或最后一个分词的右熵小于或者等于第一预设阈值，则确定所述对应分词集合不能组成标签。

步骤22，针对任意相邻两个分词集合，如果确定前一个分词集合可组成标签，且后一个分词集合可组成标签，则将所述前一个分词集合中的最后一个分词与所述后一个分词集合中的第一个分词，组成连续词，并获取所述连续词的互信息。

在本实施例中，连续词是指连续的两个词组成的词组。举例来说，第一个分词集合包括“首”、“字母”、“填空”三个分词，第二个分词集合包括“专项”、“练习”两个分词，连续词则由“填空”、“专项”两个词组成。

互信息(英文全称Mutual Information，英文简称MI)，表示变量X与变量Y是否有关系，以及关系的强弱。在自然语言处理中，互信息一般用于计算两个词同时出现的概率情况。在本实施例中，连续词的互信息的获取方式可以为通过预先训练出的互信息模型计算连续词的互信息，也可以查询预先保存的连续词的互信息进行获取，但并不限于此。

在一种可能的实现方式中，“获取所述连续词的互信息”的实现方式为：根据预先建立的连续词与互信息的对应关系，获取与所述连续词对应的互信息。具体地，通过预先保存连续词的互信息，以及建立连续词与互信息的对应关系，实现连续词的互信息获取的即时性。

在一种可能的实现方式中，“建立连续词与互信息的对应关系”的具体实现方式为：

步骤1，对语料数据进行分词，以得到所述语料数据的分词结果。

具体地，可以从多种途径中进行获取海量的语料数据，例如，可以从本地语料库中进行获取，也可以利用爬虫从网上进行抓取。

步骤2，根据所述分词结果，确定分词总数量，并确定所述分词结果中每个分词的出现次数。

步骤3，根据所述分词总数量和每个分词的出现次数，得到每个分词的出现概率。

步骤4，统计所述分词结果中每个连续词的出现次数，并确定所述分词结果中所有连续词的总数量，其中，所述连续词由所述分词结果中连续的两个分词组成。

步骤5，根据所有连续词的总数量和每个连续词的出现次数，得到每个连续词的出现概率。

步骤6，针对每个连续词，根据所述连续词中的每个分词的出现概率，以及所述连续词的出现概率，得到所述连续词的互信息。

步骤7，根据所有连续词的互信息，建立连续词与互信息的对应关系。

下面对连续词的互信息的计算过程进行简单介绍：

首先，分词结果为：word1，word2，word3，word4…；各个连续词分别为：(word1,word2),(word2,word3),(word3,word4)…。

其次，统计每个分词的出现次数count(word)，以及分词总数量count(Allwords)，得到每个分词的概率P(word)＝count(word)/count(All words)。

再次，以连续词(word1,word2)为例，统计该连续词(word1,word2)的出现的次数，以及所有连续词的总数量，得到该(word1,word2)的概率P(word1,word2)。同理，统计其他各个连续词的概率。

最后，以连续词(word1,word2)为例，计算该(word1,word2)的互信息＝P(word1,word2)/(P(word1)*P(word2))。

举例如下：假设一段话有100个词，其中，“我”出现10次，“的”出现8次，“米”出现10次，这段话里边的连续词有130个，其中，“我的”出现7次，“的米”出现2次，则“我的”这个连续词的互信息可以计算为(7/130)/((10/100)*(8/100))＝6.73；“的米”这个连续词的互信息为(3/130)/((10/100)*(8/100))＝2.88，这说明“我”和“的”两个词关系很紧密，经常同时按顺序出现，而“的”和“米”两个词则没有“我”和“的”关系这么紧密。

步骤23，根据所述连续词的互信息，确定对应相邻的两个分词集合的组合状态。

具体地，互信息可以表征词与词之间的紧密程度，互信息越大，词与词之间越紧密，词与词之间经常同时出现的可能性越大。

在本实施例中，对两个可以单独组成标签的分词集合，借助连续词的互信息判断将两个分词集合是否可以拼接成一个新的标签。

在一种可能的实现方式中，步骤23的具体实现方式为：

步骤231、判断所述连续词的互信息是否大于第二预设阈值，若是，执行步骤232，若否，执行步骤233。

步骤232，若判断获知所述连续词的互信息大于第二预设阈值，则确定所述对应相邻的两个分词集合的组合状态为可组合状态。

步骤233，若判断获知所述连续词的互信息小于或者等于第二预设阈值，则确定所述对应两个分词集合不能组合在一起。

在本实施例中，可以根据经验设定第二预设阈值，通过连续词的互信息与第二预设阈值的比较，来判断对应的两个分词集合是否能够组合在一起。

举例来说，第一个分词集合包括“首”、“字母”、“填空”三个分词，第二个分词集合包括“专项”、“练习”两个分词，则对这两个分词集合来说，判断连续词[填空]、[专项]的互信信息是否大于第二预设阈值，若大于，说明“填空”与“专项”可以拼接在一起，则由两个分词集合组成新的标签为“首字母填空专项练习”，否则不能组成新的标签。

步骤24，根据所有的相邻两个分词集合的组合状态，确定N个分割点，所述N为大于等于零的整数。

举例来说，第一个分词集合包括“首”、“字母”、“填空”三个分词，第二个分词集合包括“专项”、“练习”两个分词，第三个分词集合包括“-”、“学案”两个分词。若第一分词集合与第二分词集合可组合，第二分词集合与第三分词集合可组合，则确定出分割点为2个。

步骤25，根据所述N个分割点对所有的分词集合再次进行分割，以得到N+1个分词集群，所述分词集群中包括至少K个分词集合，所述K为大于或者等于1的正整数。

举例来说，2个分割点得到3个分词集群，其中，第一个分词集群包括首字母填空、专项练习两个分词集合。第二个分词集群包括专项练习、-学案两个分词集合，第三个分词集群包括首字母填空专项练习、-学案两个分词集合。

步骤26，将所述分词集群中的每M个分词集合进行拼接，并将每次拼接得到的标签添加到目标标签集合中，其中，所述M依次取1到K的每个值。

步骤27，将所述目标标签集合中的所有标签，作为所述目标标签。

举例来说，对第一个分词集群，拼接得到的标签为：首字母填空专项练习；

对第二个分词集群，拼接得到的标签为：专项练习-学案；

对第三个分词集群，拼接得到的标签为：首字母填空专项练习-学案。

这样，输出的目标标签为首字母填空、专项练习、-学案、首字母填空专项练习、专项练习-学案、首字母填空专项练习-学案。

为了实现上述实施例，本发明还提出一种标签提取装置。

图5是根据本发明一个实施例的标签提取装置的结构示意图。

如图5所示，该标签提取装置包括分词模块110、获取模块120、依存分析模块130、分组模块140和确定模块150，其中：

分词模块110，用于对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词；

获取模块120，用于获取所述分词序列中每个分词的左熵和右熵；

依存分析模块130，用于对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系；

分组模块140，用于根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合；

确定模块150，用于根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。

在本发明的一个实施例中，所述分组模块，具体用于：

根据所述依赖关系，依次确定所述分词序列中相邻两个分词之间是否存在依赖关系；

若相邻的两个分词之间存在依赖关系，则将相邻的两个分词划分到同一个分词集合中；

若相邻的两个分词之间不存在依赖关系，则将相邻的两个分词划分到不同的分词集合中。

在本发明的一个实施例中，所述确定模块，具体用于：

判断所述分词集合中第一个分词的左熵以及最后一个分词的右熵是否均大于第一预设阈值；

若判断获知所述分词集合中第一个分词的左熵以及最后一个分词的右熵均大于第一预设阈值，则对所述分词集合中的分词进行拼接，以得到所述目标标签。

在本发明的一个实施例中，所述分词集合包括多个，所述确定模块，具体包括：

第一确定单元，用于根据每个所述分词集合中的第一个分词的左熵以及最后一个分词的右熵，分别确定每个所述分词集合是否可组成标签；

第一处理单元，用于针对任意相邻两个分词集合，如果确定前一个分词集合可组成标签，且后一个分词集合可组成标签，则将所述前一个分词集合中的最后一个分词与所述后一个分词集合中的第一个分词，组成连续词，并获取所述连续词的互信息；

第二确定单元，用于根据所述连续词的互信息，确定对应相邻的两个分词集合的组合状态；

第三确定单元，用于根据所有的相邻两个分词集合的组合状态，确定N个分割点，所述N为大于等于零的整数；

分组单元，用于根据所述N个分割点对所有的分词集合再次进行分割，以得到N+1个分词集群，所述分词集群中包括至少K个分词集合，所述K为大于或者等于1的正整数；

第二处理单元，用于将所述分词集群中的每M个分词集合进行拼接，并将每次拼接得到的标签添加到目标标签集合中，以及将所述目标标签集合中的所有标签，作为所述目标标签，其中，所述M依次取1到K的每个值。

在本发明的一个实施例中，所述第一确定单元，具体用于：

针对每个分词集合，判断对应分词集合中第一个分词的左熵以及最后一个分词的右熵是否均大于第一预设阈值；

若判断获知所述对应分词集合中第一个分词的左熵以及最后一个分词的右熵均大于第一预设阈值，则确定所述对应分组集合可组成标签；

若判断获知所述对应分词集合中的第一个分词的左熵和/或最后一个分词的右熵小于或者等于第一预设阈值，则确定所述对应分词集合不能组成标签。

在本发明的一个实施例中，所述第二确定单元，具体用于：

判断所述连续词的互信息是否大于第二预设阈值；

若判断获知所述连续词的互信息大于第二预设阈值，则确定所述对应相邻的两个分词集合的组合状态为可组合状态；

若判断获知所述连续词的互信息小于或者等于第二预设阈值，则确定所述对应两个分词集合不能组合在一起。

在本发明的一个实施例中，所述获取单元，具体用于：

根据预先建立的连续词与互信息的对应关系，获取与所述连续词对应的互信息。

在本发明的一个实施例中，在图5所示的基础上，如图6所示，所述装置还包括：预处理模块100，用于对语料数据进行分词，以得到所述语料数据的分词结果；根据所述分词结果，确定分词总数量，并确定所述分词结果中每个分词的出现次数；根据所述分词总数量和每个分词的出现次数，得到每个分词的出现概率；统计所述分词结果中每个连续词的出现次数，并确定所述分词结果中所有连续词的总数量，其中，所述连续词由所述分词结果中连续的两个分词组成；根据所有连续词的总数量和每个连续词的出现次数，得到每个连续词的出现概率；针对每个连续词，根据所述连续词中的每个分词的出现概率，以及所述连续词的出现概率，得到所述连续词的互信息；根据所有连续词的互信息，建立连续词与互信息的对应关系。

其中，需要说明的是，前述对标签提取方法实施例的解释说明也适用于该实施例的标签提取装置，此处不再赘述。

本发明实施例的标签提取装置，对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词；获取所述分词序列中每个分词的左熵和右熵；对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系；根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合；根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。该方法结合分词的左熵和右熵以及依赖关系，能实现词与词进行组合得到具有一定语义信息的较长的标签的提取，提高了标签提取的准确性，从而方便用户更加深刻的理解和运用文本数据。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当存储介质中的指令由处理器被执行时，使得能够执行上述实施例示出的标签提取方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行上述实施例示出的标签提取方法。

图7为本发明实施例提供的执行标签提取方法的电子设备的硬件结构示意图，如图7所示，该电子设备包括：

一个或多个处理器810以及存储器820，图7中以一个处理器810为例。

该电子设备还可以包括：输入装置830和输出装置840。

处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器820作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的基于语音识别的记账处理方法对应的程序指令/模块(例如，附图3所示的记账填充模块110、检测处理模块120、记账补充模块130和第一记账存储模块140)。处理器810通过运行存储在存储器820中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的标签提取方法。

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于语音识别的记账处理装置的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至基于语音识别的记账处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可接收输入的数字或字符信息，以及产生与基于语音识别的记账处理装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

一个或者多个模块存储在存储器820中，当被一个或者多个处理器810执行时，执行上述任意方法实施例中的标签提取方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种标签提取方法，其特征在于，包括：

对待处理的文本数据进行分词，以得到所述文本数据对应的分词序列，所述分词序列包括按照分词顺序排列的多个分词；

获取所述分词序列中每个分词的左熵和右熵；

对所述分词序列中的分词进行依存分析，得到所述分词序列中各个分词之间的依赖关系；

根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合；

根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签。

2.如权利要求1所述的方法，其特征在于，所述根据所述依赖关系，对所述分词序列中的所述多个分词进行分割，得到分词集合，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签，包括：

4.如权利要求1所述的方法，其特征在于，所述分词集合包括多个，所述根据所述分词集合、每个分词的左熵和右熵，确定所述文本数据的目标标签，包括：

根据每个所述分词集合中的第一个分词的左熵以及最后一个分词的右熵，分别确定每个所述分词集合是否可组成标签；

针对任意相邻两个分词集合，如果确定前一个分词集合可组成标签，且后一个分词集合可组成标签，则将所述前一个分词集合中的最后一个分词与所述后一个分词集合中的第一个分词，组成连续词，并获取所述连续词的互信息；

根据所述连续词的互信息，确定对应相邻的两个分词集合的组合状态；

根据所有的相邻两个分词集合的组合状态，确定N个分割点，所述N为大于等于零的整数；

根据所述N个分割点对所有的分词集合再次进行分割，以得到N+1个分词集群，所述分词集群中包括至少K个分词集合，所述K为大于或者等于1的正整数；

将所述分词集群中的每M个分词集合进行拼接，并将每次拼接得到的标签添加到目标标签集合中，其中，所述M依次取1到K的每个值；

将所述目标标签集合中的所有标签，作为所述目标标签。

5.如权利要求4所述的方法，其特征在于，所述根据每个所述分词集合中的第一个分词的左熵以及最后一个分词的右熵，分别确定每个所述分词集合是否可组成标签，包括：

6.如权利要求4所述的方法，其特征在于，所述根据所述连续词的互信息，确定对应相邻的两个分词集合的组合状态，包括：

判断所述连续词的互信息是否大于第二预设阈值；

7.如权利要求4或6所述的方法，其特征在于，所述获取所述连续词的互信息，包括：

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

对语料数据进行分词，以得到所述语料数据的分词结果；

根据所述分词结果，确定分词总数量，并确定所述分词结果中每个分词的出现次数；

根据所述分词总数量和每个分词的出现次数，得到每个分词的出现概率；

统计所述分词结果中每个连续词的出现次数，并确定所述分词结果中所有连续词的总数量，其中，所述连续词由所述分词结果中连续的两个分词组成；

根据所有连续词的总数量和每个连续词的出现次数，得到每个连续词的出现概率；

针对每个连续词，根据所述连续词中的每个分词的出现概率，以及所述连续词的出现概率，得到所述连续词的互信息；

根据所有连续词的互信息，建立连续词与互信息的对应关系。

9.一种标签提取装置，其特征在于，包括：

10.如权利要求9所述的装置，其特征在于，所述分组模块，具体用于：

11.如权利要求9所述的装置，其特征在于，所述确定模块，具体用于：

12.如权利要求9所述的装置，其特征在于，所述分词集合包括多个，所述确定模块，具体包括：

13.如权利要求12所述的装置，其特征在于，所述第一确定单元，具体用于：

14.如权利要求12所述的装置，其特征在于，所述第二确定单元，具体用于：

判断所述连续词的互信息是否大于第二预设阈值；

15.如权利要求12或14所述的装置，其特征在于，所述获取单元，具体用于：

16.如权利要求15所述的装置，其特征在于，所述装置还包括：

预处理模块，用于对语料数据进行分词，以得到所述语料数据的分词结果；根据所述分词结果，确定分词总数量，并确定所述分词结果中每个分词的出现次数；根据所述分词总数量和每个分词的出现次数，得到每个分词的出现概率；统计所述分词结果中每个连续词的出现次数，并确定所述分词结果中所有连续词的总数量，其中，所述连续词由所述分词结果中连续的两个分词组成；根据所有连续词的总数量和每个连续词的出现次数，得到每个连续词的出现概率；针对每个连续词，根据所述连续词中的每个分词的出现概率，以及所述连续词的出现概率，得到所述连续词的互信息；根据所有连续词的互信息，建立连续词与互信息的对应关系。

17.一种电子设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-8中任一所述的标签提取方法。

18.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令处理器执行时实现如权利要求1-8中任一所述的标签提取方法。

19.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的标签提取方法。