CN106815190A - 一种词语识别方法、装置及服务器 - Google Patents
一种词语识别方法、装置及服务器 Download PDFInfo
- Publication number
- CN106815190A CN106815190A CN201510847855.2A CN201510847855A CN106815190A CN 106815190 A CN106815190 A CN 106815190A CN 201510847855 A CN201510847855 A CN 201510847855A CN 106815190 A CN106815190 A CN 106815190A
- Authority
- CN
- China
- Prior art keywords
- character
- character string
- word
- maximum
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例中提供了一种词语识别方法、装置及服务器,该方法包括:根据待处理文本中的各字符在待处理文本中的位置,确定最大字符串;该最大字符串为在待处理文本中重复出现、且不包含在其他重复出现的字符串中的字符串;根据最大字符串的长度、最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串;根据候选字符串的成词概率判断候选字符串是否为词语。采用本申请实施例中的方案,能够准确识别各种长度的词语。
Description
技术领域
本申请涉及语义分析技术,尤其涉及一种词语识别方法、装置及服务器。
背景技术
随着互联网的发展,语言的发展非常快速,经常出现现有词典中不存在的词语或短语。在对文本进行语义分析时,如果不能准确的发现这些词语,将对文本语义分析结果准确度造成较大影响,也无法理解用户真实意图。
例如,当文本中出现“十动然拒”时,由于在现有词典中并不存在这个词,按照现在分词工具的规则这个词会被分为“十/动/然/拒”,从而无法发现“十动然拒”这个词,也无法对该词进行语义分析。再例如,当文本中出现“何以笙箫默”时,由于现有词典中不存在这个短语,所以语义分析的结果也不能指明用户是在谈论一部小说或电视剧。
为了在文本中识别词语,现有技术中的常用方法流程如下:第一步:确定要提取的词语包含的字符个数k;第二步:统计每个长度小于等于k的字符在文档中出现的次数,并按照设定的阈值h,筛选出那些出现次数大于等于h的字符串;第三步:统计这些字符串的凝固度:凝固度=整个字符串在文档中出现的概率与组成字符串的其他词在文档中出现的概率乘积的比值;例如,第二步筛选出了“电影院”这个字符串,然后这个字符串可拆分的组合有“电”-“影院”和“电影”-“院”;则凝固度的计算方式如下:
词 | 在文本中的概率 | 组合与原词的概率比值 |
电影院 | 0.001 | |
电 | 0.01 | |
影院 | 0.005 | 0.001/(0.01*0.005)=20 |
电影 | 0.001 | |
院 | 0.1 | 0.001/(0.001*0.1)=10 |
第四步,将计算得到的凝固度中的最大值与设定的阈值比较,将比值大于阈值的字符串,作为候选字符串;例如,设定的阈值为18,则将电影院作为候选字符串;
第五步,统计候选字符串的自由度:自由度=min(候选字符串的左邻字符串的信息熵,候选字符串的右邻字符串的信息熵);例如,
来电影院看 | 信息熵 |
左邻——“来” | 0.25 |
右邻——“看” | 0.9 |
所以“电影院”这个词的自由度是0.25。
第六步,根据字符串的凝固度和自由度,计算得到该字符串成词的概率,如果概率大于某一预定的阈值,则判断该字符串是词语。
采用现有技术中的词语识别方法,需要确定要发现的词语包含的字符个数k,因此后续确定的候选字符串的长度只可能小于等于k,这就这不能发现长度大于k的词语,比如设置k为5,那么对于“新疆师范大学”这一类有明确含义、但长度超过5的短语就没有办法识别,造成识别不准确。
发明内容
本申请实施例中提供了一种词语识别方法、装置及服务器,用于解决现有技术中的词语识别方法不能准确识别不同长度的词语的问题。
根据本申请实施例的第一个方面,提供了一种词语识别方法,包括:根据待处理文本中的各字符在待处理文本中的位置,确定最大字符串;该最大字符串为在待处理文本中重复出现、且不包含在其他重复出现的字符串中的字符串;根据最大字符串的长度、最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串;根据候选字符串的成词概率判断候选字符串是否为词语。
根据本申请实施例的第二个方面,提供了一种词语识别装置,包括:最大字符串确定模块,用于根据待处理文本中的各字符在待处理文本中的位置,确定最大字符串,该最大字符串为在待处理文本中重复出现、且不包含在其他字符串中的字符串;候选字符串确定模块,用于根据最大字符串的长度、最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串;词语确定模块,用于根据候选字符串的成词概率判断候选字符串是否为词语。
根据本申请实施例的第三个方面,提供了一种服务器,包括:如上述第二个方面的的词语识别装置。
采用本申请实施例中的词语识别方案,服务器能够根据文本中的各字符的位置确定最大字符串,然后再根据该最大字符串的长度、以及该最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串,然后再根据候选字符串的成词概率,确定文本中的词语,由于是根据文本中各字符的位置来确定最大字符串,因此减少了字符串的长度的限制,对于识别各种长度的词语,提高了准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例一所示的词语识别方法的流程图;
图2为本申请实施例二所示词语识别装置的结构示意图;
图3为本申请实施例三所示服务器的结构示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在实现本申请的过程中,申请人发现,现有技术中的词语的发现方法,需要确定要发现的词语包含的字符个数k,因此后续确定的候选字符串的长度只可能小于等于k,这就这不能发现长度大于k的词语,比如设置k为5,那么对于“新疆师范大学”这一类有明确含义、但长度超过5的短语就没有办法识别,造成识别不准确。
另外,现有技术中的词语的发现方法,需要逐一列举每个字符可能出现的后缀,从而需要按照每个不重复字符去扫描全部文本,会很耗时。
此外,现有技术中的词语的发现方法,是通过凝固度筛选出可能的候选字符串,然后再根据这些候选字符串的成词概率判断是否为词语,由于凝固度只考虑了各个字符在文本中出现的概率,不够准确。
针对上述问题,本申请实施例中提供了一种词语识别方法、装置及服务器,能够根据文本中的各字符的位置确定最大字符串,然后再根据该最大字符串的长度、以及该最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串,然后再根据候选字符串的成词概率,确定文本中的词语,由于是根据文本中各字符的位置确定重复出现的最大字符串,因此减少了字符串的长度限制,能够准确识别各种长度的词语。
本申请实施例中的方案可以应用于如会员地址位置关系挖掘的相关数据分析产品中,还可以应用于如用户舆情分析、搜索引擎语义分析、大V影响力话题分析、用户爆点话题分析等语义分析产品中;还可以应用于语音识别的新词发现等场景。
本申请实施例中的音乐推荐方案可以使用如面向对象的程序设计语言java语言等的计算机语言实现。
图1为本申请实施例一所示的词语识别方法的流程图。
如图1所示,根据本申请实施例一所示的词语识别方法包括以下步骤:
S102,根据待处理文本中的各字符在待处理文本中的位置,确定最大字符串,该最大字符串为在所述待处理文本中重复出现、且不包含在其他字符串中的字符串;
S104,根据最大字符串的长度、最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串;
S106,根据候选字符串的成词概率判断候选字符串是否为词语。
在具体实施时,最大字符串为在待处理文本中重复出现、且不包含在其他重复出现的字符串中的字符串;比如,在文本中出现了“我和妈妈看电影”这一重复出现的字符串,在“我和妈妈看电影”重复的同时,“看电影”也必然成为重复字符串,但是由于看电影包含在“我和妈妈看电影”这一重复出现的字符串中,因此排除“看电影”,确定最大字符串是“我和妈妈看电影”。
在具体实施时,待处理文本中可以包括多个最大字符串。例如,“我和妈妈看电影”和“何以笙萧默”等。
采用本申请实施例中的词语识别方法,能够根据文本中的各字符的位置确定最大字符串,然后再根据该最大字符串的长度、以及该最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串,然后再根据候选字符串的成词概率,确定文本中的词语,由于是根据文本中各字符的位置确定重复出现的最大字符串,因此减少了字符串长度限制,能够准确识别各种长度的词语。
在具体实施时,根据待处理文本中的各字符在待处理文本中的位置,确定最大字符串可以包括:对待处理文本进行断句,对得到的多个语句分别编号;将各语句分别拆分为多个字符,对每个语句拆分得到的每个字符分别编号;根据待处理文本中各字符的坐标(i,j),确定最大字符串;其中,i为该字符所属的语句编号;j为该字符在第i个语句中的字符编号。
在具体实施时,对所述待处理文本进行断句可以采用以下方式:将待处理的文本中的内容,以句号为分割符进行分割,获得以句子为单位的语句集合,然后对语句集合进行编号i=1,2,3,……。
在具体实施时,将各语句拆分为多个字符,对得到的每个字符分别编号j=1,2,3,……。
在具体实施时,根据待处理文本中各字符的坐标(i,j),确定最大字符串,具体包括:根据待处理文本中各字符的坐标(i,j)确定各字符连续出现的次数;将连续出现的次数大于等于2的多个字符作为重复出现字符串;排除包含在其他重复出现字符串中的重复出现字符串,得到最大字符串。
例如,某一文本中“我”在文本中的坐标为{(1,1),(5,2),(6,6),……};“和”在文本中的坐标为{(1,2),(5,3),(8,2),……},“小”在文本中的坐标为{(1,3),(1,12),(5,4),……},“王”在文本中的坐标为{(1,4),(5,5),(30,1),……},“看”在文本中的坐标为{(1,5),(5,6),(9,1),……},“电”在文本中的坐标为{(1,6),(5,7),(16,9),……},“影”在文本中的坐标为{(1,7),(5,8),(129,12),……};……
从上述各字符的坐标可以确定出,“我和”、“我和小”、“我和小王”、“我和小王看”、“我和小王看电”以及“我和小王看电影”均在第1句和第5句中出现了2次,均为重复出现字符串;同时,“我和”、“我和小”、“我和小王”、“我和小王看”、“我和小王看电”均包含在“我和小王看电影”中,因此,排除“我和”、“我和小”、“我和小王”、“我和小王看”、“我和小王看电”;将“我和小王看电影”确定为最大字符串。
采用本申请实施例中的方法,只需要对文本进行一次遍历就可以确定最大字符串,减少了计算耗时。
优选地,根据最大字符串的长度、最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串具体包括:获取最大字符串的长度;如果长度为1,则确定最大字符串不是候选字符串;如果长度为2,则确定最大字符串为候选字符串;如果长度大于等于3,则根据所述最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串。
优选地,根据最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串,具体包括:确定最大字符串中各字符m的左邻字符的信息熵pm左和右邻字符的信息熵pm右,其中,
pm左=-(左邻字符与第m个字符组成的字符串出现的次数/左邻字符出现的次数)*log2(左邻字符与第m个字符组成的字符串出现的次数/左邻字符出现的次数),
pm右=-(第m个字符与右邻字符组成的字符串出现的次数/右邻字符出现的次数)*log2(第m个字符与右邻字符组成的字符串出现的次数/右邻字符出现的次数);
在最大字符串中确定pm左/pm右小于第一预定阈值的多个字符;将多个字符中的连续字符串作为候选字符串。
在具体实施时,如果第m个字符不存在左邻字符,则可以设pm左=0;如果第m个字符不存在右邻字符,则可以设pm右=0。
在具体实施时,左邻字符与第m个字符组成的字符串可以是左邻字符与第m个字符组成、并且该左邻字符出现在该第m个字符的左边时的字符串;第m个字符与右邻字符组成的字符串可以是第m个字符与右邻字符组成、并且该右邻字符出现在该第m个字符的右边时的字符串。
在具体实施时,该字符串出现的次数可以是该字符串在待处理文本中出现的次数,也就是该字符串在待处理文本中的个数。
在具体实施时,该第一预定阈值可以取0.8、0.6等小于等于1的值。
例如,在“我和小王看电影”这一字符串中,字符“和”的左邻字符为“我”,右邻字符为“小”;那么作为“和”字左邻字符“我”的信息熵p我=-(″我和″出现的次数/″我″出现的次数)*log2(″我和″出现的次数/″我″出现的次数),作为“和”字的右邻字符“小”的信息熵p小=-(″和小″出现的次数/″小″出现的次数)*log2(″和小″出现的次数/″小″出现的次数);若设置第一预定阈值为0.8;则进一步判断p我/p小<0.8是否成立。假如,最终确定pm左/pm右小于0.8的字符有“和”、“看”、“电”、和“影”,由于“看”、“电”、和“影”是连续字符,并且“和”与这些字符不连续,因此,将“看电影”作为候选字符串。
优选地,根据候选字符串的成词概率,判断候选字符串是否为词语,具体包括:确定第n个候选字符串的成词概率Xn=Cn-L*Cn-R/Cn*Lentotal/Lenn;其中,Cn-L为第n个候选字符串左边有字符的次数,Cn-R为第n个候选字符串右边有字符的次数,Cn为第n个候选字符串的出现次数,Lentotal为待处理文本的总字符数,Lenn为第n个候选字符串包含的字符个数;当Xn大于第二预定阈值时,判断第n个候选字符串为词语。
在具体实施时,该第二预定阈值可以根据具体情况取0.4、0.6、0.8等小于1的数。
优选地,在根据最大字符串的长度、最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串之后,在根据候选字符串的成词概率判断候选字符串是否为词语之前,还包括:判断是否存在包含的候选字符串a的候选字符串b;如果存在,则从b中去除a,得到剩余字符串y;判断y是否是候选字符串;如果不是,则将a设置为非候选字符串;如果是,则将b设置为非候选字符串。
在具体实施时,在根据最大字符串的长度、最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串之后,对于待处理文本,通常会得到多个候选字符串构成的候选字符串集合;此时,在该集合中,可能会存在多个彼此互相包含的候选字符串,可以在计算各候选字符串的成词概率之前先进行候选字符串的拆分或合并,以使词语的发现更为合理,同时提升词语发现的准确度。
例如,“何以笙萧默”和“我和小王去看何以笙萧默”均为候选字符串;那么从“我和小王去看何以笙萧默”中去除“何以笙萧默”,得到剩余字符串为“我和小王去看”;如果“我和小王去看”并不在候选字符串集合中,那么就将这两个候选字符串合并为“我和小王去看何以笙萧默”,并将“何以笙萧默”从候选字符串集合中去除。如果“我和小王去看”也在候选字符串集合中,那么就将“我和小王去看何以笙萧默”拆分为“我和小王去看”和“何以笙萧默”两个候选字符串,并将“我和小王去看何以笙萧默”从候选字符串集合中去除。
本申请实施例中的词语发现方法还可以应用于确定一个或多个待处理文本的主题关键词。
优选地,待处理文本为一个或多个,该方法还包括:分别确定各词语在该一个或多个待处理文本中的权重其中,Cl_d为词语l在待处理文本d中的个数,Cd为待处理文本d中所有词语的总个数;Dtotal为多个待处理文本的个数;Dl为词l在多个待处理文本中的总个数;Lenl为词l中所含字符的个数;k、n、θ为预定值;e为自然常数;根据多个词语的权重确定该一个或多个待处理文本的关键词。
在具体实施时,k可以是2,n可以取8,θ可以是0.8。
在具体实施时,Cl_d、Cd、Dtotal、Dl、Lenl等数据均可以经统计得到。
在具体实施时,根据多个词语的权重确定该一个或多个待处理文本的关键词可以采用多种方式,例如,将该多个词语中权重最大的作为关键词;或者,对该多个词语的权重按从大到小进行排序,将权重排名前N的作为关键词,N可以根据实际需要取任意的数值,例如,可以取1或2等。
本申请实施例中的词语发现方法还可以应用于发现新词。
优选地,根据本申请实施例的方法,还包括:判断词语是否存在词库中;如果不存在,则将该词语作为新词添加至词库。
采用本申请实施例中的词语识别方法,能够根据文本中的各字符的位置确定重复出现的最大字符串,然后再根据该最大字符串的长度、以及该最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串,然后再根据候选字符串的成词概率,确定文本中的词语,由于是根据文本中各字符的位置确定重复出现的最大字符串,因此减少了字符串长度限制,能够准确识别各种长度的词语;并且只需要一次遍历就可以确定文本中重复出现的最大字符串,效率较高。
基于同一发明构思,本申请实施例中还提供了一种词语识别装置,由于该装置解决问题的原理与本申请实施例所提供的方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图2为本申请实施例二所示词语识别装置的结构示意图。
如图2所示,根据本申请实施例二所示的词语识别装置200,可以应用于服务器,该装置包括:最大字符串确定模块202,用于根据待处理文本中的各字符在待处理文本中的位置,确定最大字符串,最大字符串为在待处理文本中重复出现、且不包含在其他字符串中的字符串;候选字符串确定模块204,用于根据最大字符串的长度、最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串;词语确定模块206,用于根据候选字符串的成词概率判断候选字符串是否为词语。
优选地,最大字符串确定模块具体包括:语句编号子模块,用于对待处理文本进行断句,对得到的多个语句分别编号;字符编号子模块,用于用于将各语句分别拆分为多个字符,对每个语句拆分得到的多个字符分别编号;最大字符串确定子模块,用于根据待处理文本中各字符的坐标(i,j),确定最大字符串;其中,i为该字符所属的语句编号;j为该字符在第i个语句中的字符编号。
最大字符串确定子模块具体包括:连续出现次数确定单元,用于根据待处理文本中各字符的坐标(i,j)确定各字符连续出现的次数;重复出现字符串确定单元,用于将连续出现的次数大于等于2的多个字符作为重复出现字符串;排除单元,用于排除包含在其他重复出现字符串中的重复出现字符串,得到最大字符串。
优选地,候选字符串确定模块具体包括:长度获取子模块,用于获取最大字符串的长度;确定子模块,用于在长度为1时,确定最大字符串不是候选字符串;在长度为2时,确定最大字符串为候选字符串;在长度大于等于3时,根据最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串。
优选地,确定子模块具体包括:信息熵确定单元,用于确定最大字符串中各字符m的左邻字符的信息熵pm左和右邻字符的信息熵pm右,其中,
pm左=-(左邻字符与第m个字符组成的字符串出现的次数/左邻字符出现的次数)*log2(左邻字符与第m个字符组成的字符串出现的次数/左邻字符出现的次数),
pm右=-(第m个字符与右邻字符组成的字符串出现的次数/右邻字符出现的次数)*log2(第m个字符与右邻字符组成的字符串出现的次数/右邻字符出现的次数);字符确定单元,用于在最大字符串中确定pm左/pm右小于第一预定阈值的多个字符;候选字符串确定单元,用于将多个字符中的连续字符串作为候选字符串。
优选地,词语确定模块具体包括:成词概率确定子模块,用于确定第n个候选字符串的成词概率Xn=Cn-L*Cn-R/Cn*Lentotal/Lenn;其中,Cn-L为第n个候选字符串左边有字符的次数,Cn-R为第n个候选字符串右边有字符的次数,Cn为第n个候选字符串的出现次数,Lentotal为待处理文本的总字符数,Lenn为第n个候选字符串包含的字符个数;词语确定子模块,用于在Xn大于第二预定阈值时,判断第n个候选字符串为词语。
优选地,根据本申请实施例二所示的词语识别装置还包括:包含判断模块,用于判断是否存在包含的候选字符串a的候选字符串b;去除模块,用于在包含判断模块的判断结果为是时,从b中去除a,得到剩余字符串y;判断模块,用于判断y是否是候选字符串;合并模块,用于在判断模块的判断结果为不是时,将a设置为非候选字符串;拆分模块,用于在判断模块的判断结果为是时,将b设置为非候选字符串。
优选地,所述待处理文本为一个或多个,所述装置还包括:权重确定模块,用于确定各词语在一个或多个待处理文本中的权重其中,Cl_d为词语l在待处理文本d中的个数,Cd为待处理文本d中所有词语的总个数;Dtotal为多个待处理文本的个数;Dl为词l在多个待处理文本中的总个数;Lenl为词l中所含字符的个数;k、n、θ为预定值;e为自然常数;关键词确定模块,用于根据多个词语的权重确定该一个或多个待处理文本的关键词。
优选地,根据本申请实施例二所示的词语识别装置还包括:判断模块,用于判断词语是否存在词库中;添加模块,用于在不存在时,将该词语作为新词添加至词库。
采用本申请实施例中的词语识别装置,能够根据文本中的各字符的位置确定最大字符串,然后再根据该最大字符串的长度、以及该最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串,然后再根据候选字符串的成词概率,确定文本中的词语,由于是根据文本中各字符的位置确定最大字符串,因此减少了字符串长度限制,能够准确识别各种长度的词语;并且只需要一次遍历就可以确定文本中重复出现的最大字符串,效率较高。
图3为本申请实施例三所示服务器的结构示意图。
如图3所示,根据本申请实施例三所示的服务器30,包括:词语识别装置200。
采用本申请实施例中包括词语识别装置的服务器,能够根据文本中的各字符的位置确定最大字符串,然后再根据该最大字符串的长度、以及该最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串,然后再根据候选字符串的成词概率,确定文本中的词语,由于是根据文本中各字符的位置确定最大字符串,因此减少了字符串的长度限制,能够准确识别各种长度的词语;并且只需要一次遍历就可以确定文本中重复出现的最大字符串,效率较高。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (19)
1.一种词语识别方法,其特征在于,包括:
根据待处理文本中的各字符在待处理文本中的位置,确定最大字符串;所述最大字符串为在所述待处理文本中重复出现、且不包含在其他重复出现的字符串中的字符串;
根据所述最大字符串的长度、所述最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串;
根据所述候选字符串的成词概率判断所述候选字符串是否为词语。
2.根据权利要求1所述的方法,其特征在于,根据待处理文本中的各字符在待处理文本中的位置,确定最大字符串,具体包括:
对所述待处理文本进行断句,对得到的多个语句分别编号;
将各语句分别拆分为多个字符,对每个语句拆分得到的每个字符分别编号;
根据所述待处理文本中各字符的坐标(i,j),确定最大字符串;其中,所述i为该字符所属的语句编号;所述j为该字符在第i个语句中的字符编号。
3.根据权利要求2所述的方法,其特征在于,根据所述待处理文本中各字符的坐标(i,j),确定最大字符串,具体包括:
根据待处理文本中各字符的坐标(i,j)确定各字符连续出现的次数;
将连续出现的次数大于等于2的多个字符作为重复出现字符串;
排除包含在其他重复出现字符串中的重复出现字符串,得到最大字符串。
4.根据权利要求1所述的方法,其特征在于,根据所述最大字符串的长度、所述最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串具体包括:
获取所述最大字符串的长度;
如果所述长度为1,则确定所述最大字符串不是候选字符串;
如果所述长度为2,则确定所述最大字符串为候选字符串;
如果所述长度大于等于3,则根据所述最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串。
5.根据权利要求4所述的方法,其特征在于,根据所述最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串,具体包括:
确定所述最大字符串中各字符m的左邻字符的信息熵pm左和右邻字符的信息熵pm右,其中,
pm左=-(左邻字符与第m个字符组成的字符串出现的次数/左邻字符出现的次数)*,
log2(左邻字符与第m个字符组成的字符串出现的次数/左邻字符出现的次数)
pm右=-(第m个字符与右邻字符组成的字符串出现的次数/右邻字符出现的次数)*;
log2(第m个字符与右邻字符组成的字符串出现的次数/右邻字符出现的次数)
在所述最大字符串中确定pm左/pm右小于第一预定阈值的多个字符;
将所述多个字符中的连续字符串作为候选字符串。
6.根据权利要求1所述的方法,其特征在于,根据所述候选字符串的成词概率,判断所述候选字符串是否为词语,具体包括:
确定第n个候选字符串的成词概率Xn=Cn-L*Cn-R/Cn*Lentotal/Lenn;其中,Cn-L为所述第n个候选字符串左边有字符的次数,Cn-R为所述第n个候选字符串右边有字符的次数,Cn为第n个候选字符串的出现次数,Lentotal为待处理文本的总字符数,Lenn为所述第n个候选字符串包含的字符个数;
当所述Xn大于第二预定阈值时,判断所述第n个候选字符串为词语。
7.根据权利要求1所述的方法,其特征在于,在根据所述最大字符串的长度、所述最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵确定候选字符串之后,在根据所述候选字符串的成词概率判断所述候选字符串是否为词语之前,还包括:
判断是否存在包含的候选字符串a的候选字符串b;
如果存在,则从b中去除a,得到剩余字符串y;
判断y是否是候选字符串;
如果不是,则将a设置为非候选字符串;
如果是,则将b设置为非候选字符串。
8.根据权利要求1所述的方法,其特征在于,所述待处理文本为一个或多个,所述方法还包括:
分别确定所述各词语在所述一个或多个待处理文本中的权重 其中,所述Cl-d为词语l在待处理文本d中的个数,Cd为所述待处理文本d中所有词语的总个数;Dtotal为所述多个待处理文本的个数;Dl为词l在所述多个待处理文本中的总个数;Lenl为词l中所含字符的个数;k、n、θ为预定值;e为自然常数;
根据所述多个词语的权重确定所述一个或多个待处理文本的关键词。
9.根据权利要求1所述的方法,其特征在于,还包括:
判断所述词语是否存在词库中;
如果不存在,则将所述词语作为新词添加至所述词库。
10.一种词语识别装置,其特征在于,包括:
最大字符串确定模块,用于根据所述待处理文本中的各字符在待处理文本中的位置,确定最大字符串,所述最大字符串为在所述待处理文本中重复出现、且不包含在其他字符串中的字符串;
候选字符串确定模块,用于根据所述最大字符串的长度、所述最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串;
词语确定模块,用于根据所述候选字符串的成词概率判断所述候选字符串是否为词语。
11.根据权利要求10所述的装置,其特征在于,最大字符串确定模块具体包括:
语句编号子模块,用于对所述待处理文本进行断句,对得到的多个语句分别编号;
字符编号子模块,用于将各语句分别拆分为多个字符,对每个语句拆分得到的多个字符分别编号;
最大字符串确定子模块,用于根据所述待处理文本中各字符的坐标(i,j),确定最大字符串;其中,所述i为该字符所属的语句编号;所述j为该字符在第i个语句中的字符编号。
12.根据权利要求11所述的装置,其特征在于,最大字符串确定子模块具体包括:
连续出现次数确定单元,用于根据待处理文本中各字符的坐标(i,j)确定各字符连续出现的次数;
重复出现字符串确定单元,用于将连续出现的次数大于等于2的多个字符作为重复出现字符串;
排除单元,用于排除包含在其他重复出现字符串中的重复出现字符串,得到最大字符串。
13.根据权利要求10所述的装置,其特征在于,候选字符串确定模块具体包括:
长度获取子模块,用于获取所述最大字符串的长度;
确定子模块,用于在所述长度为1时,确定所述最大字符串不是候选字符串;在所述长度为2时,确定所述最大字符串为候选字符串;在所述长度大于等于3时,根据所述最大字符串中各字符的左邻字符的信息熵和右邻字符的信息熵,确定候选字符串。
14.根据权利要求13所述的装置,其特征在于,所述确定子模块具体包括:
信息熵确定单元,用于确定所述最大字符串中各字符m的左邻字符的信息熵pm左和右邻字符的信息熵pm右,其中,
pm左=-(左邻字符与第m个字符组成的字符串出现的次数/左邻字符出现的次数)*,
log2(左邻字符与第m个字符组成的字符串出现的次数/左邻字符出现的次数)
pm右=-(第m个字符与右邻字符组成的字符串出现的次数/右邻字符出现的次数)*;
log2(第m个字符与右邻字符组成的字符串出现的次数/右邻字符出现的次数)
字符确定单元,用于在所述最大字符串中确定pm左/pm右小于第一预定阈值的多个字符;
候选字符串确定单元,用于将所述多个字符中的连续字符串作为候选字符串。
15.根据权利要求10所述的装置,其特征在于,词语确定模块具体包括:
成词概率确定子模块,用于确定第n个候选字符串的成词概率Xn=Cn-L*Cn-R/Cn*Lentotal/Lenn;其中,Cn-L为所述第n个候选字符串左边有字符的次数,Cn-R为所述第n个候选字符串右边有字符的次数,Cn为第n个候选字符串的出现次数,Lentotal为待处理文本的总字符数,Lenn为所述第n个候选字符串包含的字符个数;
词语确定子模块,用于在Xn大于第二预定阈值时,判断所述第n个候选字符串为词语。
16.根据权利要求10所述的装置,其特征在于,还包括:
包含判断模块,用于判断是否存在包含的候选字符串a的候选字符串b;
去除模块,用于在所述包含判断模块的判断结果为是时,从b中去除a,得到剩余字符串y;
判断模块,用于判断y是否是候选字符串;
合并模块,用于在所述判断模块的判断结果为不是时,将a设置为非候选字符串;
拆分模块,用于在所述判断模块的判断结果为是时,将b设置为非候选字符串。
17.根据权利要求10所述的装置,其特征在于,所述待处理文本为一个或多个,所述装置还包括:
权重确定模块,用于确定所述各词语在所述一个或多个待处理文本中的权重 其中,所述Cl_d为词语l在待处理文本d中的个数,Cd为所述待处理文本d中所有词语的总个数;Dtotal为所述多个待处理文本的个数;Dl为词l在所述多个待处理文本中的总个数;Lenl为词l中所含字符的个数;k、n、θ为预定值;e为自然常数;
关键词确定模块,用于根据所述多个词语的权重确定所述一个或多个待处理文本的关键词。
18.根据权利要求10所述的装置,其特征在于,还包括:
判断模块,用于判断所述词语是否存在词库中;
添加模块,用于在不存在时,将所述词语作为新词添加至所述词库。
19.一种服务器,其特征在于,包括:
如权利要求10-18中任一项所述的词语识别装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510847855.2A CN106815190B (zh) | 2015-11-27 | 2015-11-27 | 一种词语识别方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510847855.2A CN106815190B (zh) | 2015-11-27 | 2015-11-27 | 一种词语识别方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106815190A true CN106815190A (zh) | 2017-06-09 |
CN106815190B CN106815190B (zh) | 2020-06-23 |
Family
ID=59103056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510847855.2A Active CN106815190B (zh) | 2015-11-27 | 2015-11-27 | 一种词语识别方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815190B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807918A (zh) * | 2017-10-20 | 2018-03-16 | 传神联合(北京)信息技术有限公司 | 泰语词语识别的方法及装置 |
CN110020120A (zh) * | 2017-10-10 | 2019-07-16 | 腾讯科技(北京)有限公司 | 内容投放系统中的特征词处理方法、装置及存储介质 |
CN111597822A (zh) * | 2020-05-19 | 2020-08-28 | 北京奇艺世纪科技有限公司 | 一种对象名称识别方法及装置 |
CN111832310A (zh) * | 2019-04-23 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN112559694A (zh) * | 2021-02-19 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 新词发现的方法、装置、计算机存储介质和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN101950306A (zh) * | 2010-09-29 | 2011-01-19 | 北京新媒传信科技有限公司 | 新词发现中的字符串过滤方法 |
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN103020022A (zh) * | 2012-11-20 | 2013-04-03 | 北京航空航天大学 | 一种基于改进信息熵特征的中文未登录词识别系统及方法 |
CN103294664A (zh) * | 2013-07-04 | 2013-09-11 | 清华大学 | 开放领域新词发现的方法及系统 |
-
2015
- 2015-11-27 CN CN201510847855.2A patent/CN106815190B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN101950306A (zh) * | 2010-09-29 | 2011-01-19 | 北京新媒传信科技有限公司 | 新词发现中的字符串过滤方法 |
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN103020022A (zh) * | 2012-11-20 | 2013-04-03 | 北京航空航天大学 | 一种基于改进信息熵特征的中文未登录词识别系统及方法 |
CN103294664A (zh) * | 2013-07-04 | 2013-09-11 | 清华大学 | 开放领域新词发现的方法及系统 |
Non-Patent Citations (2)
Title |
---|
李文坤等: "基于词内部结合度和边界自由度的新词发现", 《计算机应用研究》 * |
王倩倩等: "汉语中新词识别方法研究", 《河北省科学院学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020120A (zh) * | 2017-10-10 | 2019-07-16 | 腾讯科技(北京)有限公司 | 内容投放系统中的特征词处理方法、装置及存储介质 |
CN110020120B (zh) * | 2017-10-10 | 2023-11-10 | 腾讯科技(北京)有限公司 | 内容投放系统中的特征词处理方法、装置及存储介质 |
CN107807918A (zh) * | 2017-10-20 | 2018-03-16 | 传神联合(北京)信息技术有限公司 | 泰语词语识别的方法及装置 |
CN111832310A (zh) * | 2019-04-23 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN111832310B (zh) * | 2019-04-23 | 2024-04-16 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN111597822A (zh) * | 2020-05-19 | 2020-08-28 | 北京奇艺世纪科技有限公司 | 一种对象名称识别方法及装置 |
CN111597822B (zh) * | 2020-05-19 | 2024-03-08 | 北京奇艺世纪科技有限公司 | 一种对象名称识别方法及装置 |
CN112559694A (zh) * | 2021-02-19 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 新词发现的方法、装置、计算机存储介质和电子设备 |
CN112559694B (zh) * | 2021-02-19 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 新词发现的方法、装置、计算机存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106815190B (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102431549B1 (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
CN106815190A (zh) | 一种词语识别方法、装置及服务器 | |
CN106844658A (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN104572625A (zh) | 命名实体的识别方法 | |
CN106557508A (zh) | 一种文本关键词提取方法和装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
Sekine | A new direction for sublanguage NLP | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN103473380B (zh) | 一种计算机文本情感分类方法 | |
CN103577556A (zh) | 一种获取问答对的相关联程度的装置和方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN113553848B (zh) | 长文本分类方法、系统、电子设备、计算机可读存储介质 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN108319581A (zh) | 一种自然语言语句评价方法及装置 | |
CN101937436A (zh) | 一种文本分类方法及装置 | |
CN103744838B (zh) | 一种用于度量主流情感信息的中文情感文摘系统及方法 | |
Markovič et al. | Applying network theory to fables: complexity in Slovene belles-lettres for different age groups | |
CN109325125A (zh) | 一种基于cnn优化的社交网络谣言方法 | |
Treviso et al. | Evaluating word embeddings for sentence boundary detection in speech transcripts | |
CN113903361A (zh) | 基于人工智能的语音质检方法、装置、设备及存储介质 | |
Pelser et al. | Deep and dense sarcasm detection | |
Smiley et al. | The E2E NLG challenge: A tale of two systems | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN106844765A (zh) | 基于卷积神经网络的显著信息检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211116 Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang Patentee after: Alibaba (China) Network Technology Co., Ltd Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands Patentee before: Alibaba Group Holdings Limited |
|
TR01 | Transfer of patent right |