CN107577663A - 一种关键短语抽取方法和装置 - Google Patents
一种关键短语抽取方法和装置 Download PDFInfo
- Publication number
- CN107577663A CN107577663A CN201710737275.7A CN201710737275A CN107577663A CN 107577663 A CN107577663 A CN 107577663A CN 201710737275 A CN201710737275 A CN 201710737275A CN 107577663 A CN107577663 A CN 107577663A
- Authority
- CN
- China
- Prior art keywords
- participle
- phrase
- word
- composition
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种关键短语抽取方法和装置,涉及文本处理技术领域。本发明提供的关键短语抽取方法和装置,在确定关键短语的时候,能够确定词对的共现信息并根据词对的共现信息,确定文本的关键短语。共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种关键短语抽取方法和装置。
背景技术
为了提高人们浏览的效率,通常需要将文本中的关键信息确定出来,来简洁的表示文本。示例的,在进行视频推荐的时候,通常将视频标题中的短语或者词提取出来作为推荐内容,以简洁的表示视频的内容。由于短语的使用越来越多,因此,如何自动抽取关键短语成了一个研究热点。
现有技术中,在抽取关键短语的时候,是按照语法规则来抽取的。通常是将分词组合,使其满足特定的语法规则,例如,满足词性序列要求,然后将该组合确定为关键短语。
由于短语一般是专有名词或者固定搭配,现有技术中仅通过满足特定语法规则作为判断依据,会出现关键短语抽取不准确,抽取精度较低的问题。
发明内容
本发明提供一种关键短语抽取方法和装置,以便解决关键短语抽取不准确,精度较低的问题。
依据本发明的第一方面,提供了一种关键短语抽取方法,该方法包括:
对文本进行预处理,得到多个分词;
将所述多个分词中每两个相邻的分词组合,得到多个词对;
通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
根据所述每个词对的共现信息,确定所述文本的关键短语。
可选的,所述通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息的步骤,包括:
将所述多个词对中的每个词对分别作为目标词对并执行以下处理:
将目标词对与预设的成词搭配特征表中的短语进行匹配;
将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
可选的,所述根据所述每个词对的共现信息,确定所述文本的关键短语的步骤,包括:
将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息;
根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息;
按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
可选的,所述标注信息包括第一标识、第二标识以及第三标识,所述根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息的步骤,包括:
将所述每个词对的各个分词分别作为目标分词,并执行以下处理:
当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置;
当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置;
当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
可选的,所述预设的成词搭配特征表中存储有至少一个短语以及与所述至少一个短语对应的共现信息,所述短语的共现信息包括:组成所述短语的各个分词之间的相关度以及所述各个分词自由度。
依据本发明的第二方面,提供了一种关键短语抽取装置,该装置包括:
预处理模块,用于对文本进行预处理,得到多个分词;
组合模块,用于将所述多个分词中每两个相邻的分词组合,得到多个词对;
第一确定模块,用于通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
第二确定模块,用于根据所述每个词对的共现信息,确定所述文本的关键短语。
可选的,所述第一确定模块,用于:
将所述多个词对中的每个词对分别作为目标词对并执行以下处理:
将目标词对与预设的成词搭配特征表中的短语进行匹配;
将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
可选的,所述第二确定模块,包括:
获取子模块,用于将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息;
确定子模块,用于根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息;
组合子模块,用于按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
可选的,所述确定子模块,用于:
将所述每个词对的各个分词分别作为目标分词,并执行以下处理:
当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置;
当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置;
当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
可选的,所述预设的成词搭配特征表中存储有至少一个短语以及与所述至少一个短语对应的共现信息,所述短语的共现信息包括:组成所述短语的各个分词之间的相关度以及所述各个分词自由度。
针对在先技术,本发明具备如下优点:
本发明实施例提供的关键短语抽取方法和装置,在确定关键短语的时候,能够确定词对的共现信息并根据词对的共现信息,确定文本的关键短语。共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一的关键短语抽取方法的流程图;
图2示出了本发明实施例二的关键短语抽取方法的流程图;
图3示出了本发明实施例三的关键短语抽取装置框图;
图4示出了本发明实施例四的关键短语抽取装置框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
参照图1,其示出了本发明实施例一的关键短语抽取方法的流程图,如图1所示,该方法可以包括如下步骤:
步骤101、对文本进行预处理,得到多个分词。
本发明实施例中的文本是需要进行关键短语抽取的文本,示例的,可以是视频网站的视频标题,或者是文章资料等,该文本的格式可以为word,pdf等常用的文本格式,本发明实施例对此不作限定。汉语中分词是最小的,能够独立活动的有意义的语言成分,而汉语是以字为基本书写单位的,这样就会导致词和词之间没有明显的区分标记。因此,当该文本为中文文本时,需要对文本进行预处理来确定分词,通过对文本进行预处理得到多个分词,可以使得后续步骤中,能够根据多个分词来确定文本的关键短语,实际应用中,还可以通过预处理,得到分词的词性等,本发明实施例在此不做赘述。需要说明的是,由于英文文本中的词和词之间均以空格作为自然分界符,因此,当该文本为英文文本时,可以不对该文本进行预处理操作,减少不必要的操作,降低成本。
步骤102、将所述多个分词中每两个相邻的分词组合,得到多个词对。
由于短语通常是由满足一定的共现关系的多个分词组成的,本发明实施例中,通过将分词组合为词对,可以通过进一步确定词对的共现关系来确定关键短语。本发明实施例,在组合的时候,可以将多个分词中每两个相邻的分词组合,得到多个词对。示例的,当有n+1个分词的时候,通过组合可以得到n个词对。
步骤103、通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息。
本发明实施例中的预设的成词搭配特征表中可以存储有至少一个短语以及与至少一个短语对应的共现信息,本发明实施例对于该预设的成词搭配特征表中存储的短语的共现信息的具体个数不做限定。示例的,该预设的成词搭配特征表中可以存储有50个短语的共现信息,该预设的成词搭配特征表中也可以存储有100个短语的共现信息等。其中,该预设的成词搭配特征表中存储的短语的共现信息,指的是短语的成词搭配特征。具体的,本发明实施例中,可以以海量无监督语料作为统计样本,确定出样本中的所有短语,然后统计出短语的成词搭配特征,最后将统计得到的各个短语的成词搭配特征存储至预设的成词搭配特征表中。本发明实施例对于统计样本不做限定,示例的,该统计样本可以为视频网站的所有视频的标题。本发明实施例中,还可以直接统计出所有日常生活中的常用短语的共现信息,然后将所有常用短语以及常用短语的共现信息存储至预设的成词搭配特征表中。
本发明实施例中短语的共现信息可以包括:组成短语的各个分词之间的相关度以及各个分词自由度。实际应用中共现信息还可以包括:短语或者各个分词的逆文档频率,短语或者各个分词的在语料中出现的次数,短语的自由度以及各个分词相对自由度,词性等,本发明实施例对此不作限定。预设的成词搭配特征表中存储有更多种类的共现信息,即更多种类的成词搭配特征的特征,在根据共现信息确定关键短语的时候,由于能够参考的成词搭配特征的特征增加,可以使得关键短语抽取的准确率更高。
步骤104、根据所述每个词对的共现信息,确定所述文本的关键短语。
本发明实施例中的共现信息能够体现组成词对的各个分词之间的关系。而一般的短语除了会满足固定的词性搭配模板之外,还具有多为固定搭配以及专有名词的特点,本发明实施例中,可以根据每个词对的共现信息,确定所述文本的关键短语。相对于现有技术中在抽取关键短语的时候,仅按照语法规则来确定的方式,本发明实施例中以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高关键短语抽取的精度。
综上所述,本发明实施例一提供的关键短语抽取方法,在确定关键短语的时候,能够确定词对的共现信息并根据词对的共现信息,确定文本的关键短语。共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。
实施例二
参照图2,其示出了本发明实施例二的关键短语抽取方法的流程图,如图2所示,该方法可以包括如下步骤:
步骤201、对文本进行预处理,得到多个分词。
本发明实施例中对文本进行预处理可以是依据一定的原则对该文本进行分词。示例的,在进行分词的时候,可以通过常用分词库,例如,常见的词典等,进行逐词遍历,将常见分词库中的所有词按照排列顺序分别在文本中遍历匹配,若匹配成功则将当前词,确定为该文本的分词,如此循环,直至常见分词库中的所有词都被匹配一遍,确定出该文本的多个分词。
具体实现的时候,在对文本进行预处理得到多个分词之后,还可以将文本中明显不符合关键短语条件的分词识别并去除。例如,可以将分词中的停用词以及标点符号去除。其中,停用词为自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用的词,包括:语气助词、副词、介词以及连接词等,如常见的“的”“在”之类。将停用词等无意义的分词去除,可以减少得到的分词数量,降低了后续确定关键短语的工作量,提高了关键短语的抽取效率。具体的,在实现将文本中明显不符合关键短语条件的分词识别并去除时,可以预先构建一个分词去除表,将明显不符合关键短语条件的分词存入分词去除表中,例如,常见的停用词等;在得到多个分词之后,多个分词中的每个分词分别和该分词去除表匹配;将匹配成功的分词去除。
步骤202、将所述多个分词中每两个相邻的分词组合,得到多个词对。
示例的,假设上述步骤201中的文本为“成龙获奥斯卡终身成就奖,为该奖首位华人得主。”预处理之后得到的12个分词分别为:“成龙/人名nr”、“获/动词v”、“奥斯卡/其他专有名词nz”、“终身/名词n”、“成就奖/名词n”、“,/逗号wd”、“为/介词p”、“该奖/代词r”、“首/数词m”、“位/量词q”、“华人/名词n”以及“得主/名词n”。
通过对上述分词进行组合,可以得到多个词对,该多个词对分别为:“成龙_获”、“获_奥斯卡”、“奥斯卡_终身”、“终身_成就奖”、“成就奖_,”、“,_为”、“为_该奖”、“该奖_首”、“首_位”、“位_华人”以及“华人_得主”。
步骤203、通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息。
本发明实施例中的预设的成词搭配特征表中,可以存储有多个短语以及与该多个短语对应的共现信息,其中短语对应的共现信息即就是短语的成词搭配特征。具体的,可以包括:组成短语的各个分词之间的相关度(point-wise mutual information,PMI),组成短语的各个分词自由度Freedom,分词相对自由度Relative Freedom,短语或者各个分词的逆文档频率以及短语或者各个分词的在语料中出现的次数。
其中,PMI可以描述一个短语中多个词的相关性。示例的,假设短语xy由分词x以及分词y组成,那么分词x以及分词y之间的相关度可以通过公式如下公式来确定:
PMI(x,y)=log(p(x,y))/(p(x)p(y))
其中p(x,y)=#(x,y)/N,p(x)=#x/N,p(y)=#y/N,log(*)表示对数函数,可以用来对自变量*做对数运算,N表示包含短语xy的文本的大小,即就是,包含短语xy的文本包含的分词数,#(x,y)表示短语xy文本中出现的次数,#x表示分词x在文本中出现的次数,#y表示分词y在文本中出现的次数。
一般PMI越大,说明分词之间的相关性越高。一般组成短语的各个分词之间的PMI都比较大。如果两个分词之间的PMI越小,说明组成该短语的各个分词之间的相关度越低,分词之间的组合更加接近随机组合而不是短语。例如,“藿香正气水”作为短语,其组成分词“藿香”与组成分词“正气水”的PMI可以达到0.992。
Freedom具体指的是组成短语的各个分词的邻接词集合的自由度。示例的,对于短语xy,组成分词x的前邻接词集合的自由度(Pre_freedom)即为分词x的自由度,组成分词y的后邻接词集合的自由度(Post_freedom)即为分词y的自由度。
分词的自由度可以通过熵来计算。例如,假设某分词的邻接词集合为X(x1...xi...xn),那么该分词的邻接词集合的自由度为:
其中,Freedom(X)表示分词的邻接词集合为X的自由度,即分词的自由度,∑表示进行求和运算,P(xi)表示xi的概率。分词的自由度可以用来度量该分词前后邻接分词的随机性,用来标记短语的边界。当分词的自由度足够高,例如,高于预设阈值的时候,可以确定以该分词作为短语的边界。例如,假设预设阈值为3.0000,短语“妇幼保健院”中的分词“妇幼”以及分词“保健院”的邻接词集自由度分别为:5.7097,5.3274,由于自由度均大于预设阈值,因此,将分词“妇幼”作为短语“妇幼保健院”的开始,将分词“保健院”作为短语“妇幼保健院”的结尾是正确的。短语“仙剑奇侠”中的分词“仙剑”以及分词“奇侠”的邻接词集的自由度分别为:2.7978,0.8687,由于分词“仙剑”的自由度大于预设阈值,分词“奇侠”的自由度小于预设阈值,因此,将分词“仙剑”作为短语“仙剑奇侠”的开始是正确的,将分词“奇侠”作为短语“仙剑奇侠”的结尾是不正确的,自由度低于阈值,说明遗漏了一些的固定搭配。
Relative Freedom指的是短语自由度与组成该短语的各个分词自由度的比值。例如,短语“最高法院”的自由度为x1,组成短语的分词“最高”的自由度为x2,组成短语的分词“法院”的自由度为x3,那么可以确定分词“最高”的相对自由度=x1/x2,分词“法院”的相对自由度=x1/x3。
具体的,在确定多个词对中每个词对的共现信息的时候,可以将该多个词对中的每个词对分别作为目标词对并执行以下处理:
步骤2031、将目标词对与预设的成词搭配特征表中的短语进行匹配。
具体的,可以先从多个词对中确定目标词对,然后将该目标词对与预设的成词搭配特征表中的短语进行匹配。在确定目标词对的时候,可以按照该多个词对中词对的排列顺序,按照从前向后的方式来确定目标词对,假设该多个词对分别为:ab、bc以及cd,可以先将ab确定为目标词对,对ab执行完相关处理之后可以将bc确定为目标词对,对bc执行完相关处理之后,可以将cd确定为目标词对,对cd执行相关处理;也可以按照该多个词对中词对的排列顺序,按照从后向前的方式来确定目标词对,假设该多个词对分别为:ab、bc以及cd,可以先将cd确定为目标词对,对cd执行完相关处理之后可以将bc确定为目标词对,对bc执行完相关处理之后,可以将ab确定为目标词对,对ab执行相关处理;还可以按照随机确定的方式确定目标词对,例如,该多个词对分别为:ab、bc以及cd,可以随机确定bc为目标词对,对bc执行完相关处理之后可以随机确定ab为目标词对,对ab执行完相关处理之后,可以随机确定cd为目标词对,对cd执行相关处理,本发明实施例对于确定目标词对的方式不做限定,只要保证每个词对都能作为目标词对进行处理即可。
在将目标词对与预设的成词搭配特征表中的短语进行匹配的时候,可以是将该目标词对与预设的成词搭配特征表中的短语进行一一匹配。假设目标词对为ab,预设的成词搭配特征表中存储有短语abe、fg、hi、jk、lm以及xy,可以将目标词对分别与短语abe、fg、hi、jk、lm以及xy进行一一比较。
步骤2032、将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
在匹配成功之后,可以在预设的成词搭配特征表中查找匹配成功的短语对应的共现信息,并将匹配成功的短语对应的共现信息确定为该目标词对的共现信息。本发明实施例中的匹配成功可以是预设的成词搭配特征表中存储的某个短语包含该目标词对。示例的,可以是目标词对与预设的成词搭配特征表中存储的某个短语完全一致,例如,目标词对为ab,预设的成词搭配特征表中存储有短语1,该短语1的内容为ab与目标词对完全一致,则可以认为两者匹配成功;也可以是目标词对与该预设的成词搭配特征表中存储的某个短语的部分一致,例如,目标词对为ab,预设的成词搭配特征表中存储有短语2,该短语2的内容为abe,目标词对与短语2的部分一致,则可以认为两者匹配成功。由于预设的成词搭配特征表中存储有多个短语以及与该多个短语对应的共现信息,本步骤中可以通过匹配的方式在预设的成词搭配特征表中确定与目标词对匹配的短语,进而确定目标词对的共现信息,由于省略了计算共现信息的步骤,因此节省了确定目标词对的共现信息的时间,进而提高了确定效率。
在进行匹配的时候,与目标词对匹配成功的短语可能为多个,例如,例如,目标词对为ab,匹配成功的短语有短语1以及短语2,其中,短语1以及短语2的内容分别为:ab,abe。此时可以在匹配成功的短语中随机确定一个短语,将该短语的共现信息确定为目标词对的共现信息,例如,可以将短语1或者短语2中任意一个短语对应的共现信息作为目标词对ab的共现信息;还可以将匹配成功的短语中和目标词对内容最接近的短语的共现信息确定为目标词对的共现信息,例如,目标词对为ab,匹配成功的短语由短语1以及短语2,其中,短语1以及短语2的内容分别为:ab,abe。由于短语1和目标词对的内容最接近,因此将短语1对应的共现信息确定为该目标词对的共现信息。将内容最接近的短语的共现信息确定为目标词对的共现信息可以使得根据词对的共现信息确定关键短语时的准确率提升。
步骤204、将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息。
本发明实施例中的预设的条件随机场(conditional random field,CRF)模型是一种判别式概率模型,可以用于标注或分析序列资料等,属于随机场的一种。本发明实施例中的预设的CRF模型可以根据词对的共现信息对组成每个词对的各个分词进行标注,标注结果即为组成每个词对的各个分词的标注信息。通过预设的CRF模型可以快速准确的获取分词的标注信息,进而可以根据分词的标注信息来确定关键短语。
假设多个词对分别为:ab、bc以及cd,那么可以将词对ab、词对bc以及词对cd分别输入预设的CRF模型中,得到分词a、分词b、分词c以及分词d的标注信息。下面以一具体实例进行说明,假设该多个词对分别为:“成龙_获”、“获_奥斯卡”、“奥斯卡_终身”、“终身_成就奖”、“成就奖_,”、“,_为”、“为_该奖”、“该奖_首”、“首_位”、“位_华人”以及“华人_得主”,将每个词对的共现信息分别输入预设的CRF模型中,可以获得各个分词的标注结果,如下表所示:
标注结果表
上述标注结果表中示出了具体实例中的词对以及词对的共现信息,包括:PMI,Pre_freedom,Post_freedom,Relative_pre_freedom以及Relative_post_freedom,其中PMI表示词对中分词之间的相关度,Pre_freedom表示词对中起始分词自由度,Post_freedom表示词对中结尾分词自由度,Relative_pre_freedom表示词对中起始分词相对自由度,Relative_post_freedom表示词对中结尾分词相对自由度。
步骤205、根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息。
本发明实施例中的标注信息可以包括第一标识、第二标识以及第三标识。其中,第一标识表示该分词为关键短语的组成分词,且该组成分词位于关键短语的起始位置,该第一标识可以为上表中的“B-PHRASETAG”;第二标识表示该分词为关键短语的组成分词,且该组成分词位于关键短语的中间位置,该第二标识可以为上表中的“I-PHRASETAG”;第三标识表示该分词为关键短语的组成分词,且该组成分词位于关键短语的结束位置,该第三标识可以为上表中的“E-PHRASETAG”。实际应用中,该标注信息还可以包括第四标识以及第五标识,其中,第四标识表示该分词为文本的关键词,该第四标识可以为上表中的“B-WORDTAG”,第五标识表示该分词不为文本的关键词也不为文本的关键短语组成分词,该第五标识可以为上表中的“B-OTHER”。
具体的,根据每个词对的各个分词的标注信息确定关键短语的组成分词以及组成分词的位置信息的时候,可以将每个词对的各个分词分别作为目标分词,并执行以下处理:
步骤2051、当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置。
示例的,由于分词“奥斯卡”的标注信息为第一标识,即“B-PHRASETAG”,因此可以将分词“奥斯卡”确定为关键短语的组成分词,且分词“奥斯卡”位于关键短语的起始位置。
步骤2052、当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置。
示例的,由于分词“终身”的标注信息为第二相识,即“I-PHRASETAG”,因此可以将分词“终身”确定为关键短语的组成分词,且分词“终身”位于关键短语的中间位置。
步骤2053、当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
示例的,由于分词“成就奖”的标注信息为第三标识,即“E-PHRASETAG”,因此可以将分词“成就奖”确定为关键短语的组成分词,且分词“成就奖”位于关键短语的结束位置。需要说明的是,本发明实施例提供的关键短语抽取方法还可以用于对关键词进行提取。示例的,当目标分词的标注信息为第四标识时,可将该目标分词确定为关键词。上述步骤2041中获取到的各个分词的标注信息可以直观的表示分词是否为关键短语的组成分词以及组成分词的位置信息等,因此本步骤中根据每个词对的各个分词的标注信息可以快捷准确的确定出关键短语的组成分词以及该组成分词的位置信息。
步骤206、按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
示例的,可以将第一标识、第二标识以及第三标识对应的分词确定为关键短语的组成分词,然后根据第一标识、第二标识以及第三标识的顺序将对应的分词组合为关键短语。例如,对于上述的分词“奥斯卡”,分词“终身”以及分词“成就奖”,可以将这三者组合为关键短语“奥斯卡终身成就奖”。
综上所述,本发明实施例二提供的关键短语抽取方法,在确定关键短语的时候,能够通过预设的成词搭配特征表确定出词对的共现信息,并能够根据词对的共现信息通过预设的CRF模型,确定出文本的关键短语。共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。
实施例三
参照图3,其示出了本发明实施例三的关键短语抽取装置框图,如图3所示,该装置30可以包括:
预处理模块301,用于对文本进行预处理,得到多个分词;
组合模块302,用于将所述多个分词中每两个相邻的分词组合,得到多个词对;
第一确定模块303,用于通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
第二确定模块304,用于根据所述每个词对的共现信息,确定所述文本的关键短语。
综上所述,本发明实施例三提供的关键短语抽取装置,在确定关键短语的时候,第一确定模块能够确定词对的共现信息,然后第二确定模块可以根据词对的共现信息,确定文本的关键短语。共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。
实施例四
参照图4,其示出了本发明实施例四的关键短语抽取装置框图,如图4所示,该装置40可以包括:
预处理模块401,用于对文本进行预处理,得到多个分词;
组合模块402,用于将所述多个分词中每两个相邻的分词组合,得到多个词对;
第一确定模块403,用于通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
第二确定模块404,用于根据所述每个词对的共现信息,确定所述文本的关键短语。
可选的,所述第一确定模块403,用于:
将所述多个词对中的每个词对分别作为目标词对并执行以下处理:
将目标词对与预设的成词搭配特征表中的短语进行匹配;
将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
可选的,如图4中所示,第二确定模块404,包括:
获取子模块4041,用于将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息;
确定子模块4042,用于根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息;
组合子模块4043,用于按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
可选的,所述确定子模块4042,用于:
将所述每个词对的各个分词分别作为目标分词,并执行以下处理:
当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置;
当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置;
当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
综上所述,本发明实施例四提供的关键短语抽取装置,在确定关键短语的时候,第一确定模块能够通过预设的成词搭配特征表确定出词对的共现信息,第二确定模块能够根据词对的共现信息通过预设的CRF模型,确定出文本的关键短语。共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种关键短语抽取方法,其特征在于,所述方法包括:
对文本进行预处理,得到多个分词;
将所述多个分词中每两个相邻的分词组合,得到多个词对;
通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
根据所述每个词对的共现信息,确定所述文本的关键短语。
2.根据权利要求1所述的方法,其特征在于,所述通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息的步骤,包括:
将所述多个词对中的每个词对分别作为目标词对并执行以下处理:
将目标词对与预设的成词搭配特征表中的短语进行匹配;
将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个词对的共现信息,确定所述文本的关键短语的步骤,包括:
将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息;
根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息;
按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
4.根据权利要求3所述的方法,其特征在于,所述标注信息包括第一标识、第二标识以及第三标识,所述根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息的步骤,包括:
将所述每个词对的各个分词分别作为目标分词,并执行以下处理:
当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置;
当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置;
当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
5.根据权利要求1所述的方法,其特征在于,所述预设的成词搭配特征表中存储有至少一个短语以及与所述至少一个短语对应的共现信息,所述短语的共现信息包括:组成所述短语的各个分词之间的相关度以及所述各个分词自由度。
6.一种关键短语抽取装置,其特征在于,所述装置包括:
预处理模块,用于对文本进行预处理,得到多个分词;
组合模块,用于将所述多个分词中每两个相邻的分词组合,得到多个词对;
第一确定模块,用于通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
第二确定模块,用于根据所述每个词对的共现信息,确定所述文本的关键短语。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块,用于:
将所述多个词对中的每个词对分别作为目标词对并执行以下处理:
将目标词对与预设的成词搭配特征表中的短语进行匹配;
将匹配的至少一个短语对应的共现信息确定为所述目标词对的共现信息。
8.根据权利要求6所述的装置,其特征在于,所述第二确定模块,包括:
获取子模块,用于将所述每个词对的共现信息分别输入预设的条件随机场CRF模型,获得组成所述每个词对的各个分词的标注信息;
确定子模块,用于根据所述每个词对的各个分词的标注信息确定关键短语的组成分词以及所述组成分词的位置信息;
组合子模块,用于按照所述组成分词的位置信息,将所述组成分词组合为关键短语。
9.根据权利要求8所述的装置,其特征在于,所述确定子模块,用于:
将所述每个词对的各个分词分别作为目标分词,并执行以下处理:
当所述目标分词的标注信息为第一标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的起始位置;
当所述目标分词的标注信息为第二标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的中间位置;
当所述目标分词的标注信息为第三标识时,确定所述目标分词为关键短语的组成分词,且所述组成分词位于关键短语的结束位置。
10.根据权利要求6所述的装置,其特征在于,所述预设的成词搭配特征表中存储有至少一个短语以及与所述至少一个短语对应的共现信息,所述短语的共现信息包括:组成所述短语的各个分词之间的相关度以及所述各个分词自由度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710737275.7A CN107577663B (zh) | 2017-08-24 | 2017-08-24 | 一种关键短语抽取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710737275.7A CN107577663B (zh) | 2017-08-24 | 2017-08-24 | 一种关键短语抽取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107577663A true CN107577663A (zh) | 2018-01-12 |
CN107577663B CN107577663B (zh) | 2021-01-12 |
Family
ID=61034856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710737275.7A Active CN107577663B (zh) | 2017-08-24 | 2017-08-24 | 一种关键短语抽取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107577663B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255066A (zh) * | 2018-09-30 | 2019-01-22 | 武汉斗鱼网络科技有限公司 | 一种业务对象的标签标记方法、装置、服务器和存储介质 |
CN109446524A (zh) * | 2018-10-25 | 2019-03-08 | 第四范式(北京)技术有限公司 | 一种语音质检方法及装置 |
CN110309513A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN111027316A (zh) * | 2019-11-18 | 2020-04-17 | 大连云知惠科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN113033190A (zh) * | 2021-04-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 字幕生成方法、装置、介质及电子设备 |
US11610401B2 (en) | 2020-09-30 | 2023-03-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Acquiring public opinion and training word viscosity model |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399901A (zh) * | 2013-07-25 | 2013-11-20 | 三星电子(中国)研发中心 | 一种关键词抽取方法 |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
CN105550170A (zh) * | 2015-12-14 | 2016-05-04 | 北京锐安科技有限公司 | 一种中文分词方法及装置 |
US20170139901A1 (en) * | 2015-02-13 | 2017-05-18 | International Business Machines Corporation | Identifying word-senses based on linguistic variations |
-
2017
- 2017-08-24 CN CN201710737275.7A patent/CN107577663B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399901A (zh) * | 2013-07-25 | 2013-11-20 | 三星电子(中国)研发中心 | 一种关键词抽取方法 |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
US20170139901A1 (en) * | 2015-02-13 | 2017-05-18 | International Business Machines Corporation | Identifying word-senses based on linguistic variations |
CN105550170A (zh) * | 2015-12-14 | 2016-05-04 | 北京锐安科技有限公司 | 一种中文分词方法及装置 |
Non-Patent Citations (1)
Title |
---|
姜舟: "关键短语抽取及相关技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊 )》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255066A (zh) * | 2018-09-30 | 2019-01-22 | 武汉斗鱼网络科技有限公司 | 一种业务对象的标签标记方法、装置、服务器和存储介质 |
CN109255066B (zh) * | 2018-09-30 | 2021-11-09 | 武汉斗鱼网络科技有限公司 | 一种业务对象的标签标记方法、装置、服务器和存储介质 |
CN109446524A (zh) * | 2018-10-25 | 2019-03-08 | 第四范式(北京)技术有限公司 | 一种语音质检方法及装置 |
CN110309513A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN111027316A (zh) * | 2019-11-18 | 2020-04-17 | 大连云知惠科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN111831804B (zh) * | 2020-06-29 | 2024-04-26 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
US11610401B2 (en) | 2020-09-30 | 2023-03-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Acquiring public opinion and training word viscosity model |
CN113033190A (zh) * | 2021-04-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 字幕生成方法、装置、介质及电子设备 |
CN113033190B (zh) * | 2021-04-19 | 2024-05-17 | 北京有竹居网络技术有限公司 | 字幕生成方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107577663B (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577663A (zh) | 一种关键短语抽取方法和装置 | |
Boudin et al. | Keyphrase extraction for n-best reranking in multi-sentence compression | |
Poon et al. | Unsupervised morphological segmentation with log-linear models | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
JP2011118526A (ja) | 単語意味関係抽出装置 | |
Budassi et al. | Nomen omen. Enhancing the Latin morphological analyser Lemlat with an onomasticon | |
CN109460552A (zh) | 基于规则和语料库的汉语语病自动检测方法及设备 | |
Zhang et al. | HANSpeller++: A unified framework for Chinese spelling correction | |
CN106445906A (zh) | 领域词典中中长词词组的生成方法及装置 | |
Husain | An unsupervised approach to develop stemmer | |
Singh et al. | Sentiment analysis using lexicon based approach | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及系统及装置及介质 | |
Orosz et al. | Hybrid text segmentation for Hungarian clinical records | |
Dar et al. | An efficient stop word elimination algorithm for Urdu language | |
Alotaiby et al. | Arabic vs. English: Comparative statistical study | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
Ibrahim et al. | Bel-Arabi: advanced Arabic grammar analyzer | |
Korobkin et al. | Prior art candidate search on base of statistical and semantic patent analysis | |
CN104239293B (zh) | 一种基于机器翻译的专名翻译方法 | |
Balog et al. | The university of amsterdam at weps2 | |
Panahandeh et al. | Correction of spaces in Persian sentences for tokenization | |
Sharma et al. | Suffix stripping based NER in Assamese for location names | |
CN107622058A (zh) | 制作外文地名库的方法、装置、电子导航芯片及服务器 | |
Mitrpanont et al. | TH_WSD: Thai word sense disambiguation using cross-language knowledge sources approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |