CN103365934A - 复杂命名实体抽取方法及装置 - Google Patents

复杂命名实体抽取方法及装置 Download PDF

Info

Publication number
CN103365934A
CN103365934A CN 201210104504 CN201210104504A CN103365934A CN 103365934 A CN103365934 A CN 103365934A CN 201210104504 CN201210104504 CN 201210104504 CN 201210104504 A CN201210104504 A CN 201210104504A CN 103365934 A CN103365934 A CN 103365934A
Authority
CN
China
Prior art keywords
repeated strings
text
frequency
named entities
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201210104504
Other languages
English (en)
Inventor
蒋喻新
辛国茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 201210104504 priority Critical patent/CN103365934A/zh
Publication of CN103365934A publication Critical patent/CN103365934A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于信息抽取领域,提供了复杂命名实体抽取方法及装置,所述方法包括:过滤文本的文本数据,并将过滤后的文本数据中使用标点符号分隔的子串通过指定的连接符连接成一个长串;记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列;根据所述后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串;根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体。本发明实施例获取更加准确的复杂命名实体,提高抽取复杂命名实体的准确性。

Description

复杂命名实体抽取方法及装置
技术领域
本发明属于信息抽取领域,尤其涉及复杂命名实体抽取方法及装置。
背景技术
随着网络技术的发展,奇异高清、土豆等视频分享网站在国内外得到了快速的发展,如何从视频页面或者其他Web页面中准确有效地提取文本信息已经成为信息抽取领域的重要问题。
在视频页面或其他Web页面中包含了大量的文本信息,如演员名、电视剧名、热点事件名等,若能从视频页面或其他Web页面抽取出这些信息,将大大提高用户搜索信息的速度。上述的演员名、电视剧名、热点事件名等共有特征是:词都较长且普通词典中并不包含这些名称,上述名称被称为复杂命名实体(Complex Naned Entities)。复杂命名实体是指具体的、字面特征不明显,与人们日常生活和休闲娱乐活动密切相关的实体名,比如,“深圳大运会”、“元旦放假时间”等都可以称之为复杂命名实体。
现有的复杂命名实体的抽取多数是在普通文本上通过统计的方法进行,比如通过后缀数组挖掘文本中的复杂命名实体。现有的基于后缀数组的复杂命名实体抽取方法将所有字同等看待,没有考虑词的边界问题,因此抽取的复杂命名实体的准确率较低。
发明内容
本发明实施例提供了一种复杂命名实体抽取方法,旨在解决现有的复杂命名实体抽取的准确率低的问题。
本发明实施例是这样实现的,一种复杂命名实体抽取方法,所述方法包括下述步骤:
过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串;
记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列;
根据所述后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串;
根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体。
本发明实施例的另一目的在于提供复杂命名实体抽取装置,所述装置包括:
文本数据连接单元,用于过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串;
有序序列获取单元,用于记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列;
重复串获取单元,用于根据所述后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串;
复杂命名实体抽取单元,用于根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体。
本发明实施例通过确定文本的重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种抽取文本的复杂命名实体,在考虑了重复串出现的频次的基础上,进一步考虑了重复串的边界和/或考虑了重复串的实际意义,从而能够对获取的重复串作进一步过滤,以获取更加准确的复杂命名实体,提高抽取复杂命名实体的准确性。
附图说明
图1是本发明第一实施例提供的复杂命名实体抽取方法流程;
图2是本发明第二实施例提供的复杂命名实体抽取装置结构;
图3是本发明第三实施例提供的另一种复杂命名实体抽取装置结构。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,在获取文本的重复串之后,通过确定文本的重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种抽取文本的复杂命名实体。
本发明实施例提供了一种:复杂命名实体抽取方法及装置。
所述方法包括:过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串;
记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列;
根据所述后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串;
根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体。
所述装置包括:文本数据连接单元,用于过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串;
有序序列获取单元,用于记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列;
重复串获取单元,用于根据所述后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串;
复杂命名实体抽取单元,用于根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体。
本发明实施例通过确定文本的重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种抽取文本的复杂命名实体,在考虑了重复串出现的频次的基础上,进一步考虑了重复串的边界和/或考虑了重复串的实际意义,从而能够对获取的重复串作进一步过滤,以获取更加准确的复杂命名实体,提高抽取复杂命名实体的准确性。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的复杂命名实体抽取方法流程,详述如下:
在步骤S11中,过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串,其中,过滤前的文本数据包括文本的中文字符和英文字符。
本实施例中,获取需要抽取复杂命名实体的文本,并过滤该文本的文本数据,其中,过滤前的文本数据包括该文本的中文字符和英文字符。
在本实施例中,过滤文本的文本数据的步骤具体包括:过滤文本中不能识别的中文字符、英文字符以及标点符号,和/或,过滤文本中可以识别但使用频率低于预设使用频率的中文字符、英文字符以及标点符号。本实施例主要过滤掉文本中不能识别的中文字符、英文字符、标点符号等,以减少后续的操作步骤,加快复杂命名实体的抽取过程。在对文本数据进行过滤后,将文本数据中使用标点符号分隔的各个子串通过指定的连接符连接成一个长串,该指定的连接符可以为“#”号,也可以为“”号等,此处不作限定。
作为本发明一优选实施例,在过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串的步骤之后,进一步包括下述步骤:
A1、结合预存储的分词对过滤后的文本数据执行分词处理。本实施例中,结合分词系统存储的分词,对过滤掉部分噪声的文本数据执行分词处理,进一步地,将词的边界位置信息保存至位图结构中,用于之后的噪音过滤处理。
A2、记录分词处理后的文本数据中词的边界信息以用于后续过滤候选复杂命名实体,该文本数据包括文本的中文字符和英文字符。本实施例中,对同一个词使用指定的连接符连接成一个长串。
在步骤S12中,记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列。
本实施例中,后缀数组(Suffix Array,SA)是一个一维数组,用于保存长度为n的字符串的n个后缀排序后的后缀起始位置。例如,假设长度为4的字符串“adcb”,起始位置为0的后缀为“adcb”,起始位置为1的后缀为“dcb”,起始位置为2的后缀为“cb”,以及起始位置为3的后缀为“b”,因此,后缀数组中的4个值分别为SA[0]=0,SA[1]=3,SA[2]=2,SA[3]=1。
在本实施例中,记录长串的中文字符的起始位置或英文字符的起始位置,获取起始位置后,再将记录的中文字符的起始位置或英文字符的起始位置存入建立的后缀数组中。由于后缀数组只存储中文字符或英文字符的起始位置,而不是保留所有字节的起始位置,因此不仅减少了以字节为单位构建后缀数组时所占用的空间,而且有效防止了在截取高频串时将汉字的两个字符截断时出现的乱码情况。
根据后缀数组存储的各个字符的起始位置对后缀进行排序,以获取经过排序后的有序序列,其中,排序的原则为根据字符的ASCII码值大小进行排序。以长度为4的字符串“adcb”为例,则对该字符串“adcb”的四个后缀进行排序后获取的有序序列依次为:“adcb”,“b”,“cb”,“dcb”。
在步骤S13中,根据该后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串。
本实施例中,比较有序序列中的各个相邻后缀,进而确定相邻后缀的最长公共前缀,该相邻后缀的最长公共前缀将作为文本的重复串,筛选获取的多个文本的重复串之后将获取文本的复杂命名实体。例如,假设后缀的有序序列为:“a”、“adcb”、“add”,则“a”和“adcb”这两个相邻后缀的最长公共前缀为“a”,“adcb”和“add”这两个相邻后缀的最长公共前缀为“ad”,获取的2个相邻后缀的最长公共前缀“a”和“ad”将作为文本的重复串,即文本的候选复杂命名实体。
在步骤S14中,根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体。
本实施例中,重复串的互信息用于表示重复串内各部分的紧密程度,重复串的独立性用于表示重复串与该重复串的上下文的紧密程度。当文本的重复串确定之后,再获取文本的重复串出现的频次、重复串的互信息、重复串的上下文中的至少两种,依据文本的重复串出现的频次、重复串的互信息、重复串的上下文中的至少两种抽取文本的复杂命名实体,以过滤掉重复串中不常用的词句,提高复杂命名实体抽取的准确性,例如,根据文本的重复串出现的频次和重复串的互信息抽取复杂命名实体,或者,根据文本的重复串出现的频次和重复串的上下文抽取复杂命名实体,或者,根据文本的重复串的互信息和重复串的上下文抽取复杂命名实体,又或者,根据文本的重复串出现的频次、重复串的互信息以及重复串的上下文抽取复杂命名实体。
其中,每个文本的重复串出现的频次可通过统计每个重复串在文本中出现的次数获取,当重复串出现的频次高于预设的出现阈值时,判定该重复串在出现的频次上达到要求,否则,判定该重复串为噪音数据。
其中,重复串的互信息包括重复串的左互信息和重复串的右互信息,该重复串的左互信息通过重复串的首词与该重复串内其他部分的紧密程度确定,而重复串的右互信息通过重复串的尾词与该重复串内其他部分的紧密程度确定。在本实施例中,重复串的首词与该重复串内其他部分的紧密程度,可通过统计重复串的首词与该重复串的其他部分同时出现的频次确定。而重复串的右互信息通过统计重复串的尾词与该重复串内其他部分同时出现的频次确定。当该重复串的左、右互信息分别高于预设的左、右频次阈值时,判定该重复串的紧密程度较高,其作为复杂命名实体的概率也较高,否则,判定该重复串为噪音数据,其更可能是偶然性的组合。
其中,重复串的独立性包括重复串的左独立性和右独立性。重复串的左独立性可通过确定重复串与该重复串左边的文本数据的熵值来确定,如果出现在重复串左边的文本数据越随机,则重复串与该重复串左边的文本数据的熵值越大,该重复串的左独立性也越高,反之,重复串的左独立性越低。同理,确定重复串的右独立性与上述确定重复串的左独立性类似,重复串的右独立性可通过确定重复串与该重复串右边的文本数据的熵值来确定。当重复串的左独立性高于预设的左独立阈值时,判定该重复串的首词就是该重复串的起始边界;当重复串的右独立性高于预设的右独立阈值时,判定该重复串的尾词就是该重复串的结束边界。
在本实施例中,(1)当通过文本的重复串出现的频次和该重复串的互信息抽取文本的复杂命名实体时,判断文本的重复串出现的频次是否高于预设的出现阈值,以及判断该重复串的左、右互信息是否都分别高于预设的左、右频次阈值,并在文本的重复串出现的频次高于预设的出现阈值以及该重复串的左、右互信息都高于预设的左、右频次阈值时,判定该重复串为复杂命名实体,否则,判定该重复串为非复杂命名实体(噪音数据);(2)当通过文本的重复串出现的频次和该重复串的独立性抽取文本的复杂命名实体时,判断文本的重复串出现的频次是否高于预设的出现阈值,以及判断该重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串出现的频次高于预设的出现阈值以及该重复串的左、右独立性分别高于预设的左、右独立阈值时,判定该重复串为复杂命名实体,否则,判定该重复串为非复杂命名实体;(3)当通过文本的重复串的互信息和该重复串的独立性抽取文本的复杂命名实体时,判断文本的重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断该重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串的左、右互信息都分别高于预设的左、右频次阈值以及该重复串的左、右独立性分别高于预设的左、右独立阈值时,判定该重复串为文本的复杂命名实体,否则,判断该重复串为非复杂命名实体;(4)当通过文本的重复串出现的频次、该重复串的互信息以及该重复串的独立性抽取文本的复杂命名实体时,判断文本的重复串出现的频次是否高于预设的出现阈值、判断该重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断该重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串出现的频次高于预设的出现阈值、该重复串的左、右互信息都分别高于预设的左、右频次阈值、以及该重复串的左、右独立性分别高于预设的左、右独立阈值时,判定该重复串为复杂命名实体,否则,判定该重复串为非复杂命名实体。
本实施例中,根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种抽取文本的复杂命名实体,从而过滤掉重复串中过多的非复杂命名实体,提高复杂命名实体抽取的准确性。
进一步地,为了使提取的复杂命名实体更精确,可在经过上述过滤之后,再检测抽取的作为文本的复杂命名实体的重复串的词性,根据该重复串的词性进一步过滤抽取的复杂命名实体中的非复杂命名实体。本实施例中,由于经过重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种过滤非复杂命名实体之后,在剩下的重复串中依然会存在一部分常用搭配,而这些常用搭配又都不能作为一个复杂命名实体,因此可再通过检测重复串的词性过滤噪音数据,以提取更准确的复杂命名实体。在本实施例中,预先统计分析复杂命名实体,并获知大部分的复杂命名实体都是名词组合,而常用搭配又遵循一定的词性组合,因此可根据统计分析的结果抽取更加准确、合理的复杂命名实体。
在本发明第一实施例中,在获取文本的重复串之后,通过确定文本的重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种抽取文本的复杂命名实体。由于本发明实施例在考虑了重复串出现的频次的基础上,进一步考虑了重复串内部之间的互信息和/或考虑了重复串本身的独立性,即在考虑了重复串出现的频次的基础上进一步考虑了重复串的边界,和/或考虑了重复串的实际意义,从而能够对获取的重复串作进一步过滤,以获取更加准确的复杂命名实体,提高抽取复杂命名实体的准确性。进一步地,在经过重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种过滤重复串之后,再检测抽取的作为文本的复杂命名实体的重复串的词性,根据该重复串的词性进一步过滤抽取的复杂命名实体中的非复杂命名实体,提高复杂命名实体抽取的准确性。
实施例二:
图2示出了本发明第二实施例提供的复杂命名实体抽取装置结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该复杂命名实体抽取装置可以用于通过有线或者无线网络连接服务器的各种信息处理终端,例如移动电话、口袋计算机(Pocket Personal Computer,PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)等,可以是运行于这些终端内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统中,其中:
文本数据连接单元21,用于过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串,其中,过滤前的文本数据包括文本的中文字符和英文字符。
本实施例中,文本数据连接单元21首先过滤获取的需要抽取复杂命名实体的文本,并将文本数据中通过标点符号分隔的各个子串通过指定的连接符连接成一个长串,该指定的连接符可以为“#”号,也可以为“”号等,此处不作限定。在本实施例中,过滤文本的文本数据的步骤具体包括:过滤文本中不能识别的中文字符、英文字符以及标点符号,和/或,过滤文本中可以识别但使用频率低于预设使用频率的中文字符、英文字符以及标点符号。
有序序列获取单元22,用于记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列。
本实施例中,记录长串的中文字符的起始位置或英文字符的起始位置,获取起始位置后,再将记录的中文字符的起始位置或英文字符的起始位置存入建立的后缀数组中,再根据后缀数组存储的各个字符的起始位置获取相应的后缀,并对获取的后缀进行排序,比如从前往后,根据后缀的ASCII码值对后缀进行排序,以获取经过排序后的有序序列。由于后缀数组只存储中文字符或英文字符的起始位置,而不是保留所有字节的起始位置,因此不仅减少了以字节为单位构建后缀数组时所占用的空间,而且有效防止了在截取高频串时将汉字的两个字符截断时出现的乱码情况。
重复串获取单元23,用于根据该后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串。
本实施例中,比较有序序列中的各个相邻后缀,进而确定相邻后缀的最长公共前缀。该相邻后缀的最长公共前缀将作为文本的重复串。
复杂命名实体抽取单元24,用于通过确定文本的重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种抽取文本的复杂命名实体,该重复串的互信息用于表示重复串内各部分的紧密程度,该重复串的独立性用于表示重复串与该重复串的上下文的紧密程度。
本实施例中,当文本的重复串确定之后,再确定文本的重复串出现的频次、重复串的互信息、重复串的上下文的至少两种,以过滤掉重复串中不常用的词句,提高复杂命名实体抽取的准确性。具体抽取的方法有:根据文本的重复串出现的频次和重复串的互信息抽取复杂命名实体;或者,根据文本的重复串出现的频次和重复串的上下文抽取复杂命名实体;或者,根据文本的重复串的互信息和重复串的上下文抽取复杂命名实体;又或者,根据文本的重复串出现的频次、重复串的互信息以及重复串的上下文抽取复杂命名实体。
在本发明第二实施例中,通过确定文本的重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种抽取文本的复杂命名实体,在考虑了重复串出现的频次的基础上,进一步考虑了重复串的边界和/或考虑了重复串的实际意义,从而能够对获取的重复串作进一步过滤,以获取更加准确的复杂命名实体,提高抽取复杂命名实体的准确性。
实施例三:
图3示出了本发明第三实施例提供的另一种复杂命名实体抽取装置结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该复杂命名实体抽取装置包括:文本数据连接单元21、有序序列获取单元22、重复串获取单元23以及复杂命名实体抽取单元24。
可选地,文本数据连接单元21包括:数据过滤模块和子串连接模块。
数据过滤模块,用于过滤文本中不能识别的中文字符、英文字符以及标点符号,和/或,过滤文本中可以识别但使用频率低于预设使用频率的中文字符、英文字符以及标点符号。
子串连接模块,用于将过滤后的文本数据中使用标点符号分隔的各个子串通过指定的连接符连接成一个长串。
可选地,该装置包括:分词处理单元25以及长串获取单元26。
分词处理单元25,用于结合预存储的分词对过滤后的文本数据执行分词处理。
本实施例中,结合分词系统存储的分词,对过滤掉部分噪声的文本数据执行分词处理,进一步地,将词的边界位置信息保存至位图结构中。
长串获取单元26,用于记录分词处理后的文本数据中词的边界信息以用于后续过滤候选复杂命名实体,该文本数据包括文本的中文字符和英文字符。
可选地,本实施例的复杂命名实体抽取单元24包括第一复杂命名实体抽取模块241、第二复杂命名实体抽取模块、第三复杂命名实体抽取模块以及第四复杂命名实体抽取模块的任一种,为了便于说明,图3仅示出了复杂命名实体抽取单元24包括第一复杂命名实体抽取模块241的情况,其中:
第一复杂命名实体抽取模块241,用于判断文本的重复串出现的频次是否高于预设的出现阈值,以及判断该重复串的左、右互信息是否都分别高于预设的左、右频次阈值,并在文本的重复串出现的频次高于预设的出现阈值以及该重复串的左、右互信息都高于预设的左、右频次阈值时,判定该重复串为复杂命名实体。
本实施例中,若根据确定的文本的重复串出现的频次和该重复串的互信息抽取文本的复杂命名实体,则判断重复串出现的频次是否高于预设的出现阈值,以及判断该重复串的左、右互信息是否都分别高于预设的左、右频次阈值,若重复串出现的频次、该重复串的左、右互信息都高于相应的阈值,则判定该重复串为复杂命名实体,否则,判定该重复串为非复杂命名实体。
第二复杂命名实体抽取模块,用于判断文本的重复串出现的频次是否高于预设的出现阈值,以及判断该重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串出现的频次高于预设的出现阈值以及该重复串的左、右独立性分别高于预设的左、右独立阈值时,判定该重复串为复杂命名实体。
本实施例中,若根据确定的文本的重复串出现的频次和该重复串的独立性抽取文本的复杂命名实体,则判断重复串出现的频次是否高于预设的出现阈值,以及判断该重复串的左、右独立性是否都分别高于预设的左、右独立阈值,若重复串出现的频次以及该重复串的左、右独立性都高于相应的阈值,则判定该重复串为复杂命名实体,否则,判定该重复串为非复杂命名实体。
第三复杂命名实体抽取模块,用于判断文本的重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断该重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串的左、右互信息都分别高于预设的左、右频次阈值以及该重复串的左、右独立性分别高于预设的左、右独立阈值时,判定该重复串为文本的复杂命名实体。
本实施例中,若根据确定的文本的重复串的互信息和重复串的独立性抽取文本的复杂命名实体,则判断重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断该重复串的左、右独立性是否都分别高于预设的左、右独立阈值,若重复串的左、右互信息以及该重复串的左、右独立性都高于相应的阈值,则判定该重复串为复杂命名实体,否则,判定该重复串为非复杂命名实体。
第四复杂命名实体抽取模块,用于判断文本的重复串出现的频次是否高于预设的出现阈值、判断该重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断该重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串出现的频次高于预设的出现阈值、该重复串的左、右互信息都分别高于预设的左、右频次阈值、以及该重复串的左、右独立性分别高于预设的左、右独立阈值时,判定该重复串为复杂命名实体。
本实施例中,若根据确定的文本的重复串出现的频次、该重复串的互信息以及该重复串的独立性抽取文本的复杂命名实体,则判断文本的重复串出现的频次是否高于预设的出现阈值、判断所述重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断所述重复串的左、右独立性是否分别高于预设的左、右独立阈值,若重复串出现的频次、该重复串的左、右互信息以及该重复串的左、右独立性都高于相应的阈值,则判定该重复串为复杂命名实体,否则,判定该重复串为非复杂命名实体。
进一步地,在复杂命名实体抽取单元24包括第一复杂命名实体抽取模块241或第三复杂命名实体抽取模块或第四复杂命名实体抽取模块时,还包括:
左互信息确定模块242,用于通过统计重复串的首词与该重复串的其他部分同时出现的频次确定该重复串的左互信息。
右互信息确定模块243,用于通过统计重复串的尾词与该重复串内其他部分同时出现的频次确定该重复串的右互信息。
本实施例中,重复串的左、右互信息用于表示重复串的内部之间的紧密程度,重复串的左互信息通过重复串的首词与该重复串内其他部分的紧密程度确定,重复串的右互信息通过重复串的尾词与该重复串内其他部分的紧密程度确定。其中,重复串的首词与该重复串内其他部分的紧密程度,可通过统计重复串的首词与该重复串的其他部分同时出现的频次确定,同理,确定重复串的右互信息与确定重复串的左互信息类似,此处不再赘述。
在本实施例中,当复杂命名实体抽取单元24包括第二复杂命名实体抽取模块或第三复杂命名实体抽取模块或第四复杂命名实体抽取模块时,还包括:
左独立性确定模块,用于通过确定重复串与该重复串左边的上下文的熵值确定该重复串的左独立性。
右独立性确定模块,用于通过确定重复串与该重复串右边的上下文的熵值确定该重复串的右独立性。
本实施例中,重复串的左、右独立性通过重复串与该重复串的左、右上下文的熵值确定。例如,如果出现在重复串左边的文本数据越随机,则重复串与该重复串左边的文本数据的熵值越大,该重复串的左独立性也越高,反之,重复串的左独立性越低。
可选地,该装置还包括:复杂命名实体检测单元27。
复杂命名实体检测单元29,用于检测抽取的作为文本的复杂命名实体的重复串的词性,根据该重复串的词性进一步过滤该抽取的作为文本的复杂命名实体中的非复杂命名实体。
本实施例中,由于经过重复串出现的频次、重复串的互信息以及重复串的独立性的至少两种过滤非复杂命名实体之后,在剩下的重复串中依然会存在一部分常用搭配,而这些常用搭配又都不能作为一个复杂命名实体,因此可再通过检测重复串的词性过滤噪音数据,以提取更准确的复杂命名实体。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种复杂命名实体抽取方法,其特征在于,所述方法包括下述步骤:
过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串;
记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列;
根据所述后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串;
根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体。
2.如权利要求1所述的方法,其特征在于,所述过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串的步骤具体包括:
过滤文本中不能识别的中文字符、英文字符以及标点符号,和/或,过滤文本中可以识别但使用频率低于预设使用频率的中文字符、英文字符以及标点符号;
将过滤后的文本数据中使用标点符号分隔的各个子串通过指定的连接符连接成一个长串。
3.如权利要求1所述的方法,其特征在于,在所述过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串的步骤之后,进一步包括下述步骤:
结合预存储的分词对过滤后的文本数据执行分词处理;
记录分词处理后的文本数据中词的边界信息。
4.如权利要求1所述的方法,其特征在于,
所述重复串的互信息包括重复串的左互信息和右互信息;
所述重复串的左互信息通过统计重复串的首词与所述重复串的其他部分同时出现的频次确定;
所述重复串的右互信息通过统计重复串的尾词与所述重复串内其他部分同时出现的频次确定;
所述重复串的独立性包括重复串的左独立性和右独立性;
所述重复串的左独立性通过确定重复串与所述重复串左边的上下文的熵值确定;
所述重复串的右独立性通过确定重复串与所述重复串右边的上下文的熵值确定。
5.如权利要求4所述的方法,所述根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体的步骤具体包括:
判断文本的重复串出现的频次是否高于预设的出现阈值,以及判断所述重复串的左、右互信息是否都分别高于预设的左、右频次阈值,并在文本的重复串出现的频次高于预设的出现阈值以及所述重复串的左、右互信息都高于预设的左、右频次阈值时,判定所述重复串为复杂命名实体。
6.如权利要求4所述的方法,其特征在于,
所述根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体的步骤具体包括:
判断文本的重复串出现的频次是否高于预设的出现阈值,以及判断所述重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串出现的频次高于预设的出现阈值以及所述重复串的左、右独立性分别高于预设的左、右独立阈值时,判定所述重复串为复杂命名实体。
7.如权利要求4所述的方法,其特征在于,所述根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体的步骤具体包括:
判断文本的重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断所述重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串的左、右互信息都分别高于预设的左、右频次阈值以及所述重复串的左、右独立性分别高于预设的左、右独立阈值时,判定所述重复串为文本的复杂命名实体。
8.如权利要求4所述的方法,其特征在于,
所述根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体的步骤具体包括:
判断文本的重复串出现的频次是否高于预设的出现阈值、判断所述重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断所述重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串出现的频次高于预设的出现阈值、所述重复串的左、右互信息都分别高于预设的左、右频次阈值、以及所述重复串的左、右独立性分别高于预设的左、右独立阈值时,判定所述重复串为复杂命名实体。
9.如权利要求1至8任一项所述的方法,其特征在于,在所述根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体的步骤之后,进一步包括下述步骤:
检测抽取的作为文本的复杂命名实体的重复串的词性,根据所述重复串的词性进一步过滤所述抽取的作为文本的复杂命名实体中的非复杂命名实体。
10.一种复杂命名实体抽取装置,其特征在于,所述装置包括:
文本数据连接单元,用于过滤文本的文本数据,并将过滤后的文本数据通过指定的连接符连接成一个长串;
有序序列获取单元,用于记录长串的中文字符或英文字符的起始位置,并将记录的中文字符或英文字符的起始位置存入建立的后缀数组中,以确定后缀数组中后缀的有序序列;
重复串获取单元,用于根据所述后缀的有序序列确定相邻后缀的最长公共前缀,并将确定的相邻后缀的最长公共前缀作为文本的重复串;
复杂命名实体抽取单元,用于根据文本的重复串出现的频次、重复串的互信息以及重复串的独立性中的至少两种抽取文本的复杂命名实体。
11.如权利要求10所述的装置,其特征在于,所述文本数据连接单元包括:
数据过滤模块,用于过滤文本中不能识别的中文字符、英文字符以及标点符号,和/或,过滤文本中可以识别但使用频率低于预设使用频率的中文字符、英文字符以及标点符号;
子串连接模块,用于将过滤后的文本数据中使用标点符号分隔的各个子串通过指定的连接符连接成一个长串。
12.如权利要求10所述的装置,其特征在于,所述装置包括:
分词处理单元,用于结合预存储的分词对过滤后的文本数据执行分词处理;
长串获取单元,用于记录分词处理后的文本数据中词的边界信息。
13.如权利要求10所述的装置,其特征在于,所述复杂命名实体抽取单元包括:
第一复杂命名实体抽取模块,用于判断文本的重复串出现的频次是否高于预设的出现阈值,以及判断所述重复串的左、右互信息是否都分别高于预设的左、右频次阈值,并在文本的重复串出现的频次高于预设的出现阈值以及所述重复串的左、右互信息都高于预设的左、右频次阈值时,判定所述重复串为复杂命名实体;
或者,
第二复杂命名实体抽取模块,用于判断文本的重复串出现的频次是否高于预设的出现阈值,以及判断所述重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串出现的频次高于预设的出现阈值以及所述重复串的左、右独立性分别高于预设的左、右独立阈值时,判定所述重复串为复杂命名实体;
或者,
第三复杂命名实体抽取模块,用于判断文本的重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断所述重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串的左、右互信息都分别高于预设的左、右频次阈值以及所述重复串的左、右独立性分别高于预设的左、右独立阈值时,判定所述重复串为文本的复杂命名实体;
或者,
第四复杂命名实体抽取模块,用于判断文本的重复串出现的频次是否高于预设的出现阈值、判断所述重复串的左、右互信息是否都分别高于预设的左、右频次阈值,以及判断所述重复串的左、右独立性是否分别高于预设的左、右独立阈值,并在文本的重复串出现的频次高于预设的出现阈值、所述重复串的左、右互信息都分别高于预设的左、右频次阈值、以及所述重复串的左、右独立性分别高于预设的左、右独立阈值时,判定所述重复串为复杂命名实体。
14.如权利要求13所述的装置,其特征在于,
所述复杂命名实体抽取单元包括第一复杂命名实体抽取模块或第三复杂命名实体抽取模块或第四复杂命名实体抽取模块时,还包括:
左互信息确定模块,用于通过统计重复串的首词与所述重复串的其他部分同时出现的频次确定所述重复串的左互信息;
右互信息确定模块,用于通过统计重复串的尾词与所述重复串内其他部分同时出现的频次确定所述重复串的右互信息;
所述复杂命名实体抽取单元包括第二复杂命名实体抽取模块或第三复杂命名实体抽取模块或第四复杂命名实体抽取模块时,还包括:
左独立性确定模块,用于通过确定重复串与所述重复串左边的上下文的熵值确定所述重复串的左独立性;
右独立性确定模块,用于通过确定重复串与所述重复串右边的上下文的熵值确定所述重复串的右独立性。
15.如权利要求10所述的装置,其特征在于,所述装置包括:
复杂命名实体检测单元,用于检测抽取的作为文本的复杂命名实体的重复串的词性,根据所述重复串的词性进一步过滤所述抽取的作为文本的复杂命名实体中的非复杂命名实体。
CN 201210104504 2012-04-11 2012-04-11 复杂命名实体抽取方法及装置 Pending CN103365934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210104504 CN103365934A (zh) 2012-04-11 2012-04-11 复杂命名实体抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210104504 CN103365934A (zh) 2012-04-11 2012-04-11 复杂命名实体抽取方法及装置

Publications (1)

Publication Number Publication Date
CN103365934A true CN103365934A (zh) 2013-10-23

Family

ID=49367295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210104504 Pending CN103365934A (zh) 2012-04-11 2012-04-11 复杂命名实体抽取方法及装置

Country Status (1)

Country Link
CN (1) CN103365934A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015172529A1 (zh) * 2014-05-13 2015-11-19 华为技术有限公司 一种挖掘最大重复序列的方法及装置
CN105550168A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN106919433A (zh) * 2016-06-01 2017-07-04 阿里巴巴集团控股有限公司 重复代码片段查询方法和装置
CN111241832A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
CN112307251A (zh) * 2019-06-24 2021-02-02 上海松鼠课堂人工智能科技有限公司 英语词汇知识点图谱自适应识别关联系统和方法
CN113268988A (zh) * 2021-07-19 2021-08-17 中国平安人寿保险股份有限公司 文本实体分析方法、装置、终端设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015172529A1 (zh) * 2014-05-13 2015-11-19 华为技术有限公司 一种挖掘最大重复序列的方法及装置
CN105550168A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN105550168B (zh) * 2015-12-10 2019-01-15 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN106919433A (zh) * 2016-06-01 2017-07-04 阿里巴巴集团控股有限公司 重复代码片段查询方法和装置
CN112307251A (zh) * 2019-06-24 2021-02-02 上海松鼠课堂人工智能科技有限公司 英语词汇知识点图谱自适应识别关联系统和方法
CN112307251B (zh) * 2019-06-24 2021-08-20 上海松鼠课堂人工智能科技有限公司 英语词汇知识点图谱自适应识别关联系统和方法
CN111241832A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
CN111241832B (zh) * 2020-01-15 2023-08-15 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
CN113268988A (zh) * 2021-07-19 2021-08-17 中国平安人寿保险股份有限公司 文本实体分析方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN106709345B (zh) 基于深度学习方法推断恶意代码规则的方法、系统及设备
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
CN100405371C (zh) 一种提取新词的方法和系统
US7424421B2 (en) Word collection method and system for use in word-breaking
US10474642B2 (en) Multibyte heterogeneous log preprocessing
US20060206306A1 (en) Text mining apparatus and associated methods
CN103365934A (zh) 复杂命名实体抽取方法及装置
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN102801859B (zh) 垃圾短信的识别方法、装置和具有该装置的移动通信终端
CN104598577B (zh) 一种网页正文的提取方法
CN107491477B (zh) 一种表情符号搜索方法及装置
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN102279890A (zh) 基于微博的情感词提取收集方法
CN103123618A (zh) 文本相似度获取方法和装置
CN105787095A (zh) 互联网新闻的自动生成方法和装置
Wang et al. A coverless plain text steganography based on character features
CN103778200A (zh) 一种报文信息源抽取方法及其系统
CN111881094B (zh) 日志中关键信息提取方法、装置、终端及存储介质
US20160283582A1 (en) Device and method for detecting similar text, and application
WO2013177849A1 (zh) 一种新建联系人的方法及终端
CN111507090A (zh) 摘要提取方法、装置、设备及计算机可读存储介质
CN102550049A (zh) 通过动态学习提取规则来获取词表外的翻译
CN114021556A (zh) 基于自然语言处理技术的日志敏感数据检测方法及系统
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131023

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131023

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131023