CN104714939A - 一种信息处理方法及电子设备 - Google Patents
一种信息处理方法及电子设备 Download PDFInfo
- Publication number
- CN104714939A CN104714939A CN201310685298.XA CN201310685298A CN104714939A CN 104714939 A CN104714939 A CN 104714939A CN 201310685298 A CN201310685298 A CN 201310685298A CN 104714939 A CN104714939 A CN 104714939A
- Authority
- CN
- China
- Prior art keywords
- information
- identification
- pending
- identification information
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明公开了一种信息处理方法,用以提高确定出的无关语的准确性。该方法包括:在至少一个初始信息中,确定M个第一标识信息和N个第二标识信息;分别根据每个第一标识信息按预定规则进行搜索,获得相应的M’搜索信息组,且所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;分别根据每个第二标识信息在所述待处理信息中进行扩展,获得相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合。本发明还公开了相应的电子设备。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种信息处理方法及电子设备。
背景技术
在自然语言文本中,和文本表述的主题不相关的词汇或者短语一般称为无关语。是否是无关语的一个判定标准是:去掉句子中的无关语,对该文本要表达的语义不产生影响。例如,在句子“你好,请问到售后重装系统要收费么?”中,“你好”和“请问”就是两个无关语,去掉这两个词汇对句子要表达的主题不产生任何影响。
在实际中,在使用智能问答、文本分类等系统中,当对语义进行分析和处理时,由于无关语的存在,易对其语义的分析和处理造成影响,从而易导致分析和处理的结果不准确,因此,如何降低无关语对语义的影响是人们一直重视的问题。
现有技术中降低无关语的影响主要有两种方法:
第一种:通过停止词汇表(Stop Words),停止词汇表是由整理的停止词构成的词典,其中,在文本处理的过程中存在一些需要被剔除的词,如“的”、“了”、“着”等无意义词汇就称为停止词。该方法是基于该停止词汇表对语料库进行处理,当在语料库中存在停止词汇表中的停止词时就停止对该停止词的处理。
第二种:逆文档频率(Inverse Document Frequency)的方法,在该方法中,假设在语料库中出现频度高的词汇的重要程度低,即该词汇的逆文档频率较低,则将该词汇按照无关语处理。
然而,当用第一种方法处理语料库中的无关语时,由于整理停止词汇表大多是由人工完成,故占用时间较长,且往往因为受到观察者理解的局限性,或者受到某些特殊情况下的个别语句的影响,易导致确定从的停止词的准确性较低。
当用第二种方法处理语料库中的无关语时,是采用了一种假设的方法搜集无关语,在某些领域中,这一假设并不成立,确定出的无关语的准确性显然较低。
综上可知,现有技术中在确定无关语时的准确性较低。
发明内容
本发明实施例提供一种信息处理方法及电子设备,用于解决现有技术中确定无关语时的准确率较低的技术问题。
一种信息处理方法,应用于一电子设备中,所述电子设备包括一初始信息集合和待处理信息集合,所述初始信息集合包含有至少一个初始信息,所述待处理信息集合中包含有至少一个待处理信息,所述方法包括以下步骤:
在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息;
在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于M的正整数;
在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于N的正整数;
将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
较佳的,所述在所述至少一个初始信息中,确定M个第一标识信息,具体为:
确定第i个初始信息在所述待处理信息集合中的第i个出现频率;i分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;
及,根据所述第i个初始信息在所述待处理信息中所处的位置,确定所述第i个初始信息位于待处理信息的第一位置区域的第一次数和位于待处理信息的第二位置区域的第二次数;
根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率;
若所述第i个出现频率大于所述预设出现频率阈值,且所述第i个有效频率大于预设有效频率阈值,则将所述第i个初始信息确定为所述第一标识信息,共确定出所述M个第一标识信息。
较佳的,所述根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率,具体为:
根据所述第一次数、所述第二次数、及所述待处理信息集合中所包含的待处理信息的总数量的比值,确定所述第i个有效频率。
较佳的,在确定所述M个第一标识信息之后,还包括:
确定所述M个第一标识信息中的第t个第一标识信息对应的所述第一次数和所述第二次数;t分别取不小于1且不大于M的整数;
比较所述第一次数和所述第二次数的大小,获得一比较结果;
当所述比较结果表明所述第一次数大于等于所述第二次数时,确定所述第t个第一标识信息为左侧标识信息,所述左侧标识信息具有第一标识参数,否则,确定所述第t个第一标识信息为右侧标识信息,所述右侧标识信息具有第二标识参数。
较佳的,所述在所述待处理信息集合中,分别将每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’个搜索信息组,具体为:
确定所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域;p分别取不小于1且不大于L的整数,L为不大于M的整数;在所述待处理信息中,向所述第一标识位置区域的左侧进行搜索,获得与所述第p个第一标识信息对应的第p个左侧搜索信息组,共获得L’个左侧搜索信息组;L’为不大于L的正整数;和/或
确定所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第二标识位置区域;q分别取不小于1且不大于R的整数,R为不大于M的整数,且L+R=M;在所述待处理信息中,向所述第二标识位置区域的右侧进行搜索,获得与所述第q个第一标识信息对应的第q个右侧搜索信息组,共获得R’个右侧搜索信息组;R’为不大于R的正整数,且L’+R’=M’;
令所述L’个左侧搜索信息组与所述R’个右侧搜索信息组构成所述M’个搜索信息组。
较佳的,确定所述M’个搜索信息组中包含的所述至少一个搜索信息,具体为:
确定所述M’个搜索信息组中的第p个左侧搜索信息在所述待处理信息集合中出现的第一频率,和/或确定所述M’个搜索信息组中的第q个右侧搜索信息在所述待处理信息集合中出现的第二频率;
令频率值大于第一预设候选频率阈值的所述第一频率对应的第p个左侧搜索信息为所述搜索信息,和/或令频率值大于所述第一预设候选频率阈值的所述第二频率对应的第q个右侧搜索信息为所述搜索信息。
较佳的,所述在所述至少一个初始信息中,确定N个第二标识信息,具体为:
确定第j个初始信息在所述待处理信息集合中的第j个出现频率;j分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;
将所述第j个初始信息按照预设拆分条件进行拆分,获得k个分段信息;k为正整数;
确定所述k个分段信息中的第m个分段信息在所述待处理信息集合中出现的第m分段频率;m分别取不小于1且不大于k的整数;
判断所述第j个出现频率与所述第m分段频率之间的差值是否大于一预设分段频率阈值;
若所述差值大于所述预设分段频率阈值,将所述第m个分段信息确定为所述第二标识信息,共确定出所述N个第二标识信息。
较佳的,在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N’个扩展信息组中包含的至少一个扩展信息构成第二信息集合,具体为:
确定所述N个第二标识信息中的第r个第二标识信息在所述待处理信息中占用的第r个标识长度;r分别取不小1且不大于N的整数;
根据所述第r个标识长度对所述第r个第二标识信息进行扩展,获得与所述第r个第二标识信息对应的、包含有h个扩展信息的第r个扩展信息组,共获得所述N’个扩展信息组;其中每个扩展信息的扩展长度不小于所述第r个标识长度;h为正整数;
根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证;
令验证成功的扩展信息构成所述第二信息集合。
较佳的,所述根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证,包括:
确定所述第r个第二标识信息的起始标识字符、终止标识字符;
及,确定所述h个扩展信息中的第x个扩展信息的起始扩展字符、终止扩展字符;x分别取不小于1且不大于h的整数;
验证所述起始标识字符与所述起始扩展字符是否匹配,及所述终止标识字符与所述终止扩展字符是否匹配;
其中,若所述起始标识字符与所述起始扩展字符匹配成功,或所述终止标识字符与所述终止扩展字符匹配成功,则确定对所述第x个扩展信息验证成功。
较佳的,确定对所述第x个扩展信息验证成功,包括:
确定所述r个第二标识信息在所述待处理信息集合中出现的第r分段频率;
及,确定匹配成功的所述第x个扩展信息在所述待处理信息集合中出现的第x扩展频率;
判断所述第r分段频率与所述第x扩展频率之间的差值是否大于第二预设候选频率阈值;
若所述差值大于所述第二预设候选频率阈值,则确定对所述第x个扩展信息验证成功。
较佳的,在获得所述更新信息集合之后,还包括:
判断所述待处理信息集合中是否存在与所述更新信息集合中的至少一个更新信息相匹配的待处理信息;
若有,将该匹配的待处理信息标记为无关信息。
一种电子设备,所述电子设备中具有一初始信息集合和待处理信息集合,所述初始信息集合包含有至少一个初始信息,所述待处理信息集合中包含有至少一个待处理信息,所述电子设备包括:
第一确定模块,用于在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息;
搜索模块,用于在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于M的正整数;
扩展模块,用于在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于N的正整数;
合并模块,用于将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
较佳的,所述第一确定模块具体用于:
确定第i个初始信息在所述待处理信息集合中的第i个出现频率;i分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;及,根据所述第i个初始信息在所述待处理信息中所处的位置,确定所述第i个初始信息位于待处理信息的第一位置区域的第一次数和位于待处理信息的第二位置区域的第二次数;根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率;若所述第i个出现频率大于所述预设出现频率阈值,且所述第i个有效频率大于预设有效频率阈值,则将所述第i个初始信息确定为所述第一标识信息,共确定出所述M个第一标识信息。
较佳的,所述第一确定模块还用于根据所述第一次数、所述第二次数、及所述待处理信息集合中所包含的待处理信息的总数量的比值,确定所述第i个有效频率。
较佳的,所述电子设备还包括:
第二确定模块,用于确定所述M个第一标识信息中的第t个第一标识信息对应的所述第一次数和所述第二次数;t分别取不小于1且不大于M的整数;
比较模块,用于比较所述第一次数和所述第二次数的大小,获得一比较结果;
第三确定模块,用于当所述比较结果表明所述第一次数大于等于所述第二次数时,确定所述第t个第一标识信息为左侧标识信息,所述左侧标识信息具有第一标识参数,否则,确定所述第t个第一标识信息为右侧标识信息,所述右侧标识信息具有第二标识参数。
较佳的,所述搜索模块具体用于:确定所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域;p分别取不小于1且不大于L的整数,L为不大于M的整数;在所述待处理信息中,向所述第一标识位置区域的左侧进行搜索,获得与所述第p个第一标识信息对应的第p个左侧搜索信息组,共获得L’个左侧搜索信息组;L’为不大于L的正整数;和/或,确定所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第二标识位置区域;q分别取不小于1且不大于R的整数,R为不大于M的整数,且L+R=M;在所述待处理信息中,向所述第二标识位置区域的右侧进行搜索,获得与所述第q个第一标识信息对应的第q个右侧搜索信息组,共获得R’个右侧搜索信息组;R’为不大于R的正整数,且L’+R’=M’;令所述L’个左侧搜索信息组与所述R’个右侧搜索信息组构成所述M’个搜索信息组。
较佳的,所述搜索模块具体还用于:确定所述M’个搜索信息组中的第p个左侧搜索信息在所述待处理信息集合中出现的第一频率,和/或确定所述M’个搜索信息组中的第q个右侧搜索信息在所述待处理信息集合中出现的第二频率;令频率值大于第一预设候选频率阈值的所述第一频率对应的第p个左侧搜索信息为所述搜索信息,和/或令频率值大于所述第一预设候选频率阈值的所述第二频率对应的第q个右侧搜索信息为所述搜索信息。
较佳的,所述第一确定模块具体用于:确定第j个初始信息在所述待处理信息集合中的第j个出现频率;j分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;将所述第j个初始信息按照预设拆分条件进行拆分,获得k个分段信息;k为正整数;确定所述k个分段信息中的第m个分段信息在所述待处理信息集合中出现的第m分段频率;m分别取不小于1且不大于k的整数;判断所述第j个出现频率与所述第m分段频率之间的差值是否大于一预设分段频率阈值;若所述差值大于所述预设分段频率阈值,将所述第m个分段信息确定为所述第二标识信息,共确定出所述N个第二标识信息。
较佳的,所述扩展模块具体用于:确定所述N个第二标识信息中的第r个第二标识信息在所述待处理信息中占用的第r个标识长度;r分别取不小1且不大于N的整数;根据所述第r个标识长度对所述第r个第二标识信息进行扩展,获得与所述第r个第二标识信息对应的、包含有h个扩展信息的第r个扩展信息组,共获得所述N’个扩展信息组;其中每个扩展信息的扩展长度不小于所述第r个标识长度;h为正整数;根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证;令验证成功的扩展信息构成所述第二信息集合。
较佳的,所述扩展模块具体用于:确定所述第r个第二标识信息的起始标识字符、终止标识字符;及,确定所述h个扩展信息中的第x个扩展信息的起始扩展字符、终止扩展字符;x分别取不小于1且不大于h的整数;验证所述起始标识字符与所述起始扩展字符是否匹配,及所述终止标识字符与所述终止扩展字符是否匹配;其中,若所述起始标识字符与所述起始扩展字符匹配成功,或所述终止标识字符与所述终止扩展字符匹配成功,则确定对所述第x个扩展信息验证成功。
较佳的,所述扩展模块具体还用于:确定所述r个第二标识信息在所述待处理信息集合中出现的第r分段频率;及,确定匹配成功的所述第x个扩展信息在所述待处理信息集合中出现的第x扩展频率;判断所述第r分段频率与所述第x扩展频率之间的差值是否大于第二预设候选频率阈值;若所述差值大于所述第二预设候选频率阈值,则确定对所述第x个扩展信息验证成功。
较佳的,所述电子设备还包括:
判断模块,用于判断所述待处理信息集合中是否存在与所述更新信息集合中的至少一个更新信息相匹配的待处理信息;
标记模块,用于若有,将该匹配的待处理信息标记为无关信息。
本发明实施例中,在获得所述更新信息集合时是由所述电子设备自动完成,无需用户手动操作,不仅提高了工作效率,也提高了确定无关语时的准确度。
本发明实施例中,根据对所述初始信息集合进行处理及扩展,获得了所述更新信息集合,获得的所述更新信息集合相较于现有技术中的无关语集合来说所包含的无关语更多,实用性更强。例如,初始信息为无关语“怎么”,则获得的更新信息可以是“怎么回事”、“怎么办”,等等,即所述更新信息是所述初始信息的延伸,比初始信息更为丰富。且,因所述初始信息具有无关语性质,则根据所述初始信息获得的所述更新信息也具有较强的无关语性质,故所述更新信息的准确性较高。
较佳的,在建立所述更新信息集合后,通过该更新信息集合在语料库中查找无关语时,可以根据其中的更新信息与语料库进行匹配,则在语料库中匹配成功的词汇或句子就可以作为无关语,提高了在所述语料库中查找无关语的效率。
附图说明
图1为本发明实施例中信息处理方法的主要流程图;
图2为本发明实施例中电子设备的主要结构示意图;
图3为本发明实施例中电子设备的结构示意图一;
图4为本发明实施例中电子设备的结构示意图二。
具体实施方式
本发明实施例中提供了一种信息处理方法,应用于一电子设备中,所述电子设备包括一初始信息集合和待处理信息集合,所述初始信息集合包含有至少一个初始信息,所述待处理信息集合中包含有至少一个待处理信息,所述方法包括:在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息;在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于M的正整数;在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于N的正整数;将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
本发明实施例中,在获得所述更新信息集合时是由所述电子设备自动完成,无需用户手动操作,不仅提高了工作效率,也提高了确定无关语时的准确度。
本发明实施例中,根据对所述初始信息集合进行处理及扩展,获得了所述更新信息集合,获得的所述更新信息集合相较于现有技术中的无关语集合来说所包含的无关语更多,实用性更强。例如,初始信息为无关语“怎么”,则获得的更新信息可以是“怎么回事”、“怎么办”,等等,即所述更新信息是所述初始信息的延伸,比初始信息更为丰富。且,因所述初始信息具有无关语性质,则根据所述初始信息获得的所述更新信息也具有较强的无关语性质,故所述更新信息的准确性较高。
较佳的,在建立所述更新信息集合后,通过该更新信息集合在语料库中查找无关语时,可以根据其中的更新信息与语料库进行匹配,则在语料库中匹配成功的词汇或句子就可以作为无关语,提高了在所述语料库中查找无关语的效率。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,所述电子设备可以是PC(个人计算机)、笔记本、PAD(平板电脑)、手机等等不同的电子设备,本发明对此不作限制。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。下面结合附图对本发明优选的实施方式进行详细说明。
请参见图1,本发明实施例提供一种信息处理方法,所述方法应用于电子设备中,所述电子设备包括一初始信息集合和待处理信息集合,所述初始信息集合包含有至少一个初始信息,所述待处理信息集合中包含有至少一个待处理信息,所述方法的主要流程如下:
S11:在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息。
本发明实施例中,所述电子设备中的所述初始信息集合可以是通过人工或其它方法标记或整理的规模较小的无关语集合,由于其规模较小,所以易于获得且准确率也较高。
较佳的,本发明实施例中,所述初始信息可以是指整理的无关语集合中的无关语。
本发明实施例中,所述第一标识信息可以是根据所述初始信息得到的具有较好指示性作用的信息,所述第一标识信息可以称为强无关语,例如在句子“你好,请问,电脑蓝屏了怎么办?”中,“请问”是个无关语,并且“请问”起到指示性作用,它之前的“你好”也是无关语,“请问”即是一个强无关语,可以作为所述第一标识信息。
本发明实施例中,所述第二标识信息可以是根据所述初始信息得到的具有一定的无关语的特质的信息,较佳的,所述第二标识信息可以称为拟无关语,例如“这是怎么回事”、“都是怎么回事”、“那是怎么回事”,而较短的短语“怎么回事”本身不是无关语,但是具有一定的无关语的特质,则“怎么回事”就是一个拟无关语,可以作为所述第二标识信息。
较佳的,本发明实施例中,所述待处理信息集合可以是所述电子设备中的一个包含有大量语句及词汇的语料库,该语料库中可以包含有与所述初始信息集合中一个或多个初始信息相同的语句或词汇。
较佳的,为了便于处理,所述语料库中的标点符号已被预先过滤掉,即所述待处理信息中的字符不包括标点字符。
本发明实施例中,在所述至少一个初始信息中确定M个第一标识信息,具体可以为:确定第i个初始信息在所述待处理信息集合中的第i个出现频率;i分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;及,根据所述第i个初始信息在所述待处理信息中所处的位置,确定所述第i个初始信息位于待处理信息的第一位置区域的第一次数和位于待处理信息的第二位置区域的第二次数;根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率;若所述第i个出现频率大于所述预设出现频率阈值,且所述第i个有效频率大于预设有效频率阈值,则将所述第i个初始信息确定为所述第一标识信息,共确定出所述M个第一标识信息。
本发明实施例中,所述第i个出现频率可以是指所述第i个初始信息在所述待处理信息集合中出现的次数,也可理解为所述第i个初始信息在所述待处理信息集合中的支持率,可以用Support(i)表示,即所述第i个初始信息在所述语料库中出现的次数。
较佳的,本发明实施例中,所述第一位置区域可以是指所述第i个初始信息位于所述待处理信息中偏左侧的位置区域,所述第二位置区域可以是指所述第i个初始信息位于所述待处理信息中偏右侧的位置区域。
例如所述待处理信息是一个包含无关语的句子,则可以根据该无关语在句子中的位置,即位于句子的左侧位置还是位于句子的右侧位置,来确定该无关语位于该句子中的所述第一位置区域还是所述第二位置区域。
较佳的,本发明实施例中,当确定了所述第i个初始信息在所述待处理信息中所处的位置后,可以确定所述第i个初始信息位于待处理信息的所述第一位置区域的第一次数,所述第一次数可以是指所述第i个初始信息位于所述待处理信息集合中的至少一个待处理信息中的所述第一位置区域的次数的总和,例如所述第一次数可以记作LC(i),LC(i)可以表示为:
LC(i)=|{SEN|LD(i,SEN)≤k1,SEN∈C}| (1)
公式1中,SEN代表所述待处理信息集合中的一个待处理信息,LD(i,SEN)代表第i个初始信息在待处理信息中的位置与所述待处理信息的开始位置之间的距离,C代表所述待处理信息集合,k1为预设阀值,且k1为正数。
较佳的,本发明实施例中,当确定了所述第i个初始信息在所述待处理信息中所处的位置后,可以确定所述第i个初始信息位于待处理信息的所述第二位置区域时的所述第二次数,所述第二次数可以是指所述第i个初始信息位于所述待处理信息集合中的至少一个待处理信息中的所述第二位置区域的次数的总和,例如所述第二次数可以记作LR(i),令RC(i)可以表示为:
RC(i)=|{SEN|RD(i,SEN)≤k2,SEN∈C}| (2)
公式2中,SEN代表所述待处理信息集合中的一个待处理信息,RD(i,SEN)代表第i个初始信息在待处理信息中的位置与所述待处理信息终止位置之间的距离,C代表所述待处理信息集合,k2为预设阀值,且k2为正数。
本发明实施例中,根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率,具体可以为:根据所述第一次数、所述第二次数、及所述待处理信息集合中所包含的待处理信息的总数量的比值,确定所述第i个有效频率。
例如,所述第i个初始信息位于待处理信息的第一位置区域的第一次数为LC(i),所述第i个初始信息位于待处理信息的第一位置区域的第一次数为RC(i),所述第i个有效频率可以是所述第一次数与所述第二次数的和与所述待处理信息集合中的待处理信息的总数的比值,例如所述第i个有效频率可以表示为VSup(i)。
本发明实施例中,在获得所述第i个有效频率及所述第i个出现频率后,判断所述第i个出现频率是否大于所述预设出现频率阈值,及所述第i个有效频率是否大于预设有效频率阈值,当所述第i个初始信息的所述第i个出现频率大于所述预设出现频率阈值,且所述第i个有效频率大于预设有效频率阈值时,则确定所述第i个初始信息为所述第一标识信息。重复以上步骤,对i分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数,最终根据所述至少一个初始信息可以共确定出所述M个第一标识信息。
例如,所述预设出现频率阈值可以用tS表示,所述预设有效频率阈值可以用tV表示,所述第i个初始信息的第i个有效频率可以表示为VSup(i),所述第i个初始信息的第i个出现频率可以表示为Support(i),所述M个第一标识信息可以用SM表示,则SM可以表示为:
SM={i|i∈S,VSup(i)>tV,Support(i)>tS} (3)
公式3中,S代表所述初始信息集合,i为不小于1且不大于所述初始信息中的包含的初始信息的数量的总数。
较佳的,本发明实施例中,当所述预设出现频率阈值设置为0.1,且所述预设有效频率阈值也设置为0.1时,获得的所述第一标识信息较为准确。
本发明实施例中,在确定所述M个第一标识信息之后,还可以包括:确定所述M个第一标识信息中的第t个第一标识信息对应的所述第一次数和所述第二次数;t分别取不小于1且不大于M的整数;比较所述第一次数和所述第二次数的大小,获得一比较结果;当所述比较结果表明所述第一次数大于等于所述第二次数时,确定所述第t个第一标识信息为左侧标识信息,所述左侧标识信息具有第一标识参数,否则,确定所述第t个第一标识信息为右侧标识信息,所述右侧标识信息具有第二标识参数。
例如,当确定所述M个第一标识信息中的第t个第一标识信息为所述左侧标识信息时,所述第一标识参数可以为1,当确定所述M个第一标识信息中的第t个第一标识信息为所述右侧标识信息时,所述第二标识参数信息可以为2。
本发明实施例中,在所述至少一个初始信息中,确定N个第二标识信息,具体可以分为以下步骤:
第一步:确定第j个初始信息在所述待处理信息集合中的第j个出现频率;j分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数。
其中,所述第j个初始信息在所述待处理信息集合中的所述第j个出现频率可以用Support(j)代表,则Support(j)可以表示初始无关语集合中第j个无关语在所述语料库中出现的次数。
第二步:将所述第j个初始信息按照预设拆分条件进行拆分,获得k个分段信息;k为正整数。
其中,所述预设拆分条件可以是根据所述第j个初始信息的数据长度,即所述第j个初始信息的信息长度,进行设置的,通过拆分可以获得与所述第j个初始信息相关的所述k个分段信息。例如可以用Grams(j,L)代表所述k个分段信息,则有:
Grams(j,L)={SubStr(j,L1,L2)|1≤L1,L2≤|j|,L2-L1≥L-1} (7)
公示7中,L代表预设的分段信息的最小数据长度,SubStr(j,L1,L2)代表将所述第j个初始信息拆分成由第L1个数据起到第L2个数据止的数据串,即所述分段信息。
例如,当j=“这是为什么”,L=3时,则Grams(j,L)={“这是为”,“是为什”,“为什么”,“这是为什”,“是为什么”,“这是为什么”}。
第三步:确定所述k个分段信息中的第m个分段信息在所述待处理信息集合中出现的第m分段频率;m分别取不小于1且不大于k的整数。
所述第m分段频率可以通过所述第m个片段信息在所述待处理信息集合中的出现的次数来确定,当所述第m个片段信息出现次数多时,所述m分段频率就较高,否则,所述第m分段频率就较低。
第四步:判断所述第j个出现频率与所述第m分段频率之间的差值是否大于一预设分段频率阈值。
由于所述第m分段频率对应的所述第m个片段信息为所述第j个出现频率对应的所述第j个初始信息拆分成,两者在所述待处理信息集合中出现的概率不一定相同,故所述第j个出现频率与所述第m分段频率之间可能存在一差值,通过设置所述预设分段频率阈值可以判断所述第m个片段信息是否满足条件。
第五步:若所述差值大于所述预设分段频率阈值,将所述第m个分段信息确定为所述第二标识信息。
确定出的所述第j个出现频率可以用Support(j)表示,所述m分段频率可以用Support(m)表示,确定的第二标识信息可以用VGrams(m)表示,则有
VGrams(m)={m|m∈Grams(j,L),Support(m)-Support(j)>tm} (8)
公式8中,tm代表所述预设分段频率阈值,tm为正数,经实践证明,当所述预设分段频率阈值为0.1时,所确定的第二标识信息的准确性最佳。
根据所述k个分段信息,对所述第m个分段信息中的m依次进行取值,重复第三步至第五步,可以确定所述k个分段信息中的满足条件的分段信息,即获得所述第j个初始信息对应的第二标识信息。
根据所述至少一个初始信息,对j依次进行取值,重复第一步到第五步,可以获所述至少一个初始信息的中的每个初始信息对应的、满足条件的分段信息,即确定为所述第二标识信息,最终可以获得所述N个第二标识信息。
S12:在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于M的正整数。
本发明实施例中,当确定所述M个第一标识信息之后,可以根据所述M个第一标识信息的标识参数对每个第一标识信息进行划分,例如,可以确定所述M个第一标识信息中的L个第一标识信息具有所述第一标识参数,R个第一标识信息具有所述第二标识参数,其中L、R分别取不大于M的整数。
本发明实施例中,在所述待处理信息集合中,分别将每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’个搜索信息组,具体可以为:确定所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域;p分别取不小于1且不大于L的整数,L为不大于M的整数;在所述待处理信息中,向所述第一标识位置区域的左侧进行搜索,获得与所述第p个第一标识信息对应的第p个左侧搜索信息组,共获得L’个左侧搜索信息组;L’为不大于L的正整数;和/或,确定所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第二标识位置区域;q分别取不小于1且不大于R的整数,R为不大于M的整数,且L+R=M;在所述待处理信息中,向所述第二标识位置区域的右侧进行搜索,获得与所述第q个第一标识信息对应的第q个右侧搜索信息组,共获得R’个右侧搜索信息组;R’为不大于R的正整数,且L’+R’=M’;
令所述L’个左侧搜索信息组与所述R’个右侧搜索信息组构成所述M’个搜索信息组。
较佳的,本发明实施例中,所述预定规则可以是根据所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域,或者是根据所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第二标识位置区域;其中,所述第一标识位置区域可以是与第一标识信息对应的初始信息位于所述待处理信息的所述第一位置区域相同,所述第二标识位置区域可以是与第二标识信息对应的初始信息位于所述待处理信息的所述第二位置区域相同。
本发明实施例中,可以根据每个第一标识信息在所述待处理信息中位于的第一标识位置区域,确定所述第一标识信息为所述左侧标识信息或所述右侧标识信息,从而进行搜索。
例如,当所述M个第一标识信息中的L个第一标识信息为所述左侧标识信息,则根据所述L个第一标识信息可以获得所述L’个左侧搜索信息组,所述L’个左侧搜索信息组可以用SL’表示,则SL’可以表示为:
SL’={SubStr(SEN,1,LD(p,SEN)-1)|p∈SL} (9)
公式9中,LD(p,SEN)为正整数,代表所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域与所述待处理信息开始位置之间的距离,SubStr(SEN,1,LD(p,SEN)-1)代表在所述待处理信息中,从开始位置到第LD(p,SEN)-1个数据的位置结束的数据串,SL代表所述L个第一标识信息。
例如,SEN=“你好请问电脑蓝屏是怎会回事”,p=“请问”,则LD(p,SEN)=3,SubStr(SEN,1,LD(p,SEN)-1)=SubStr(SEN,1,2)=“你好”,故将“你好”加入SL’中,即所述L’个左侧搜索信息组中。
当所述M个第一标识信息中的R个第一标识信息为所述右侧标识信息,则根据所述R个第一标识信息可以获得所述R’个右侧搜索信息组,所述R’个右侧搜索信息组可以用SR’表示,则SR’可以表示为:
SR’={SubStr(SEN,RD(q,SEN)+1,|SEN|)|q∈SR} (10)
公式10中,LD(q,SEN)为正整数,代表所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第一标识位置区域与所述待处理信息结束位置之间的距离,|SEN|代表所述待处理信息的数据串的总长度,SubStr(SEN,RD(q,SEN)+1,|SEN|)代表在所述待处理信息中,从第LD(q,SEN)+1个数据到所述待处理信息结束的数据串,SR代表所述R个第一标识信息。
将SL’和SR’进行合并,可以得到所述M’个搜索信息组,即SM’=SL’∪SR’。
较佳的,本发明实施例中,在获得的所述M’个搜索信息组后,则确定所述M’个搜索信息组中包含的所述至少一个搜索信息,具体可以为:确定所述M’个搜索信息组中的第p个左侧搜索信息在所述待处理信息集合中出现的第一频率,和/或确定所述M’个搜索信息组中的第q个右侧搜索信息在所述待处理信息集合中出现的第二频率;
令频率值大于第一预设候选频率阈值的所述第一频率对应的第p个左侧搜索信息为所述搜索信息,和/或令频率值大于所述第一预设候选频率阈值的所述第二频率对应的第q个右侧搜索信息为所述搜索信息,并将所述搜索信息添加到所述第一信息集合中。
本发明实施例中,所述第一信息集合可以是由所述所述M’个搜索信息组中,满足预设候选条件的搜索信息构成的。
例如,所述第一频率可以用Support(p)代表,所述第二频率可以表示为Support(q),即可以理解为所述搜索信息在所述待处理信息集合中的支持率,所述第一预设候选频率阈值可以用t1代表,所述第二预设候选频率阈值可以用t2代表,所述第一信息集合可以用S1代表,则所述第一信息集合可以表示为:
S1={(p,q)|p∈SL’,q∈SR’,Support(p)>t1,Support(q)>t2} (11)
S13:在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于N的正整数。
较佳的,本发明实施例中,在确定了所述N个第二标识信息后,可以根据每个所述第二标识信息对其在所述待处理信息集合中进行扩展,从而可以确定新的扩展信息,例如,可以通过确定所述第二标识信息在所述待处理信息中的位置区域,从而根据其位置区域进行扩展,例如,通过初始信息“这是什么”,获得的一个第二标识信息为“什么”,则通过在待处理信息“为什么会这样”中进行扩展,可以获得“为什么”或“为什么会”。
本发明实施例中,在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N’个扩展信息组中包含的至少一个扩展信息构成第二信息集合,具体可以分为以下步骤:
第一步:确定所述N个第二标识信息中的第r个第二标识信息在所述待处理信息中占用的第r个标识长度;r分别取不小1且不大于N的整数。
所述第r个标识长度可以是所述第r个第二标识信息的信息长度,例如,确定的一个第二标识信息可以是“为什么”,则其标识长度具体可以是该第二标识信息的字符或数据长度,即标识长度为3,可以记作Lr=3。
第二步:根据所述第r个标识长度对所述第r个第二标识信息进行扩展,获得与所述第r个第二标识信息对应的、包含有h个扩展信息的第r个扩展信息组,共获得所述N’个扩展信息组;其中每个扩展信息的扩展长度不小于所述第r个标识长度;h为正整数。
该步骤中,在确定出所述第r个第二标识信息位于的待处理信息后,可以根据所述第r个标识长度及所述待处理信息的信息长度,来设置扩展后的最短信息长度,较佳的,根据所述第r个第二标识信息的首尾数据在所述待处理信息中的位置,可以对所述第r个第二标识信息进行基于首数据向前扩展或者基于尾数据向后扩展,从而可以获得与所述第r个第二标识信息对应的所述h个扩展信息,所述h个扩展信息构成与所述第r个第二标识信息对应的所述第r个扩展信息组。
例如,与所述第r个第二个标识信息的扩展信息可以记为Extend(h),则所述h个扩展信息可以表示为:
Extend(h)={SubStr(SEN,Lr1,Lr2)|Lr1–Li>K1,Lr2–Lj>K1,
Li-Lj≥K2,SubStr(SEN,Li,Lj)=r} (12)
公式12中,K1、K2均为预设参数,K1代表第r个第二标识信息在待处理信息中向前或向后扩展的最大距离,K2代表所述第r个第二标识信息扩展后的最短长度,SubStr(SEN,Li,Lj)代表所述第r个第二标识信息为待处理信息中从第Li个字符到第Lj个字符的字符串。
例如,第r个第二标识信息为“为什么”,可以表示为r=为什么,所述待处理信息可以是“我的电脑频繁蓝屏,到底为什么”,可以表示为SEN=我的电脑频繁蓝屏,到底为什么”,则当K1=2,K2=5时,可以得到的扩展信息为“到底为什么”。
第三步:根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证。
该步骤中验证的具体过程可以包括以下步骤:
1)确定所述第r个第二标识信息的起始标识字符、终止标识字符;及,确定所述h个扩展信息中的第x个扩展信息的起始扩展字符、终止扩展字符;x分别取不小于1且不大于h的整数;
在本步骤中使用的符号定义如下,其中e为第二标识信息经扩展获得的第e个扩展信息,|e|为所述第e个扩展信息的信息长度或字符串长度。
a.起始字符HChar(e),例如“为什么”的起始字符是“为”;例如,可以表示为HChar(e)=SubStr(e,1,1);
b.结束字符TChar(e),例如“为什么”的结束字符是“么”;例如,可以表示为TChar(e)=SubStr(e,|e|,|e|);
c.起始字符频度HC(x,C),在待处理信息集合中包含的起始字符和第e个扩展信息的起始字符相同的信息数量;例如,可以表示为HC(e,C)=|{f|HChar(e)=HChar(f)}|,其中f代表所述待处理信息集合中的待处理信息或所述待处理包含的字符串。
d.起始字符频度TC(e,C),在待处理信息集合中的字符串或标识信息的起始字符和第e个扩展信息的终止字符相同的信息数量;例如,可以表示为TC(e,C)=|{f|TChar(e)=TChar(f)}|,其中f代表所述待处理信息集合中的待处理信息或所述待处理包含的字符串。
则获得的所述第r个第二标识信息的起始标识字符可以表示为HChar(r)=SubStr(r,1,1),终止标识字符可以表示为HChar(r)=SubStr(r,|r|,|r|);所述h个扩展信息中的第x个扩展信息的所述起始扩展字符可以表示为HChar(x)=SubStr(x,1,1),所述终止扩展字符可以表示为HChar(x)=SubStr(x,|x|,|x|)。
2)验证所述起始标识字符与所述起始扩展字符是否匹配,及所述终止标识字符与所述终止扩展字符是否匹配;
在确定出所述第r个标识信息的所述起始标识字符和所述终止标识字符,及所述第x个扩展信息的所述起始扩展字符和所述终止扩展字符,则可以判断所述起始标识字符与所述起始扩展字符是否相同,及所述终止标识字符与所述终止扩展字符是否相同,若相同则表示匹配成功,若不同则表示匹配不成功。
若所述起始标识字符与所述起始扩展字符匹配成功,或所述终止标识字符与所述终止扩展字符匹配成功,则还可以对所述r个第二标识信息和所述第x个扩展信息进行以下操作,来进一步确定所述第x个扩展信息是否验证成功。
a.确定所述r个第二标识信息在所述待处理信息集合中出现的第r分段频率;及,确定匹配成功的所述第x个扩展信息在所述待处理信息集合中出现的第x扩展频率。
所述第r分段频率可以用Support(r)表示,即可以理解为所述第r个第二标识信息在所述待处理集合中出现的频率,同理,所述第x扩展频率可以用Support(x)表示,即可以理解为所述第x个扩展信息在所述待处理集合中出现的频率。
b.判断所述第r分段频率与所述第x扩展频率之间的差值是否大于第二预设候选频率阈值。
所述第二预设候选频率阈值可以用tr表示,且tr为正数,则判断Support(x)-Support(r)的值是否大于tr。
c.若所述差值大于所述第二预设候选频率阈值,则确定对所述第x个扩展信息验证成功。
当所述第r分段频率与所述第x扩展频率之间的差值大于所述第二预设候选频率阈值时,即Support(x)-Support(r)≥tr时,则表示所述第x个扩展信息验证成功
第四步:令验证成功的扩展信息构成所述第二信息集合。
在将验证成功后的扩展信息加入到所述第二信息集合后,所述第二信息集合可以用S2表示,则所述第二信息集合满足:
S2={x|<r,x>∈C,Support(x)-Support(r)≥tr,
HC(x,C)≥n1,TC(x,C)≥n2} (13)
公式13中,n1、n2为预设数值,且均为正整数,HC(x,C)代表起始字符和第e个扩展信息的起始字符相同的待处理信息的信息数量,TC(x,C)代表终止字符和所述第x个扩展信息的终止字符相同的待处理信息的信息数量,<r,x>表示扩展信息x是由第二标识信息x经扩展所得。
S14:将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
本发明实施例中,在获得的包含有搜索信息的所述第一信息集合和包含有扩展信息的所述第二信息集合之后,可以将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,则获得的所述更新信息集合中除包含有所述初始信息集合中的所述初始信息外,还可以包含有所述搜索信息、或所述扩展信息。
较佳的,本发明实施例中,在获得所述第一信息集合和所述第二信息集合后,可以判断所述第一信息集合或所述第二信息集合是否为空,若所述第一信息集合或所述第二信息集合中的任一集合非空时,则将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得所述更新信息集合,并将所述更新信息集合作为新的初始信息集合,重复步骤S11-S13,并将每一次处理所得的所述第一信息集合和所述第二信息集合中的信息添加到所述更新信息集合,直到获得的所述第一信息集合和所述第二信息集合的均为空时,结束操作。
本发明实施例中,在获得所述更新信息集合之后,还可以包括:判断所述待处理信息集合中是否存在与所述更新信息集合中的至少一个更新信息相匹配的待处理信息;若有,将该匹配的待处理信息标记为无关信息。
本发明实施例中,当在获得所述更新信息集合之后,可以根据所述更新信息集合对所述待处理信息集合进行匹配处理,若匹配成功,则可以确定所述更新信息为所述待处理信息集合中的无关信息。例如,当所述待处理信息集合为一语料库时,根据原始的无关语集合在所述语料库进行搜索和扩展,获得了新的无关语集合,即所述更新信息集合,则可以根据新的无关语集合中的无关语对所述语料库中的语句进行匹配,当在所述语料库中存在语句或词汇与所述无关语匹配成功时,则可以将该语句或词汇作为所述无关信息。
本发明实施例中,所述无关信息可以是指待处理信息中对理解该信息无实质性影响的信息或字符串,例如可以是指句子中的无关语,通常在确定出所述无关信息后,系统可以不再对其进行分析处理。
较佳的,本发明实施例中,获得所述更新信息集合之后,可以根据所述更新信息集合对所述待处理信息集合进行处理,例如当所述待处理信息集合是一语料库时,则可以根据初始无关语集合从该语料库中获取新的无关语集合,即所述更新信息集合,然后,再根据获得的新的无关语集合可以继续对该语料库或其他文档、语音进行处理,从而确定其中的无关信息,以便进行进一步的操作,例如将其中的无关信息过滤。
请参见图2,本发明实施例提供一种电子设备,所述电子设备中具有一初始信息集合和待处理信息集合,所述初始信息集合包含有至少一个初始信息,所述待处理信息集合中包含有至少一个待处理信息。所述电子设备包括第一确定模块201、搜索模块202、扩展模块203及合并模块204。
所述第一确定模块201可以用于在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息。
所述搜索模块202可以用于在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于M的正整数。
所述扩展模块203可以用于在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于N的正整数。
所述合并模块204可以用于将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
较佳的,所述第一确定模块201具体可以用于:确定第i个初始信息在所述待处理信息集合中的第i个出现频率;i分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;及,根据所述第i个初始信息在所述待处理信息中所处的位置,确定所述第i个初始信息位于待处理信息的第一位置区域的第一次数和位于待处理信息的第二位置区域的第二次数;根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率;若所述第i个出现频率大于所述预设出现频率阈值,且所述第i个有效频率大于预设有效频率阈值,则将所述第i个初始信息确定为所述第一标识信息,共确定出所述M个第一标识信息。
较佳的,所述第一确定模块201还可以用于根据所述第一次数、所述第二次数、及所述待处理信息集合中所包含的待处理信息的总数量的比值,确定所述第i个有效频率。
较佳的,本发明实施例中,请参见图3,所述电子设备还可以包括第二确定模块301、比较模块302及第三确定模块303。
所述第二确定模块301可以用于确定所述M个第一标识信息中的第t个第一标识信息对应的所述第一次数和所述第二次数;t分别取不小于1且不大于M的整数。
所述比较模块302可以用于比较所述第一次数和所述第二次数的大小,获得一比较结果。
所述第三确定模块303可以用于当所述比较结果表明所述第一次数大于等于所述第二次数时,确定所述第t个第一标识信息为左侧标识信息,所述左侧标识信息具有第一标识参数,否则,确定所述第t个第一标识信息为右侧标识信息,所述右侧标识信息具有第二标识参数。
较佳的,所述搜索模块202具体可以用于:确定所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域;p分别取不小于1且不大于L的整数,L为不大于M的整数;在所述待处理信息中,向所述第一标识位置区域的左侧进行搜索,获得与所述第p个第一标识信息对应的第p个左侧搜索信息组,共获得L’个左侧搜索信息组;L’为不大于L的正整数;和/或,确定所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第二标识位置区域;q分别取不小于1且不大于R的整数,R为不大于M的整数,且L+R=M;在所述待处理信息中,向所述第二标识位置区域的右侧进行搜索,获得与所述第q个第一标识信息对应的第q个右侧搜索信息组,共获得R’个右侧搜索信息组;R’为不大于R的正整数,且L’+R’=M’;令所述L’个左侧搜索信息组与所述R’个右侧搜索信息组构成所述M’个搜索信息组。
较佳的,所述搜索模块202具体还可以用于:确定所述M’个搜索信息组中的第p个左侧搜索信息在所述待处理信息集合中出现的第一频率,和/或确定所述M’个搜索信息组中的第q个右侧搜索信息在所述待处理信息集合中出现的第二频率;令频率值大于第一预设候选频率阈值的所述第一频率对应的第p个左侧搜索信息为所述搜索信息,和/或令频率值大于所述第一预设候选频率阈值的所述第二频率对应的第q个右侧搜索信息为所述搜索信息。
较佳的,所述第一确定模块201具体可以用于:确定第j个初始信息在所述待处理信息集合中的第j个出现频率;j分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;将所述第j个初始信息按照预设拆分条件进行拆分,获得k个分段信息;k为正整数;确定所述k个分段信息中的第m个分段信息在所述待处理信息集合中出现的第m分段频率;m分别取不小于1且不大于k的整数;判断所述第j个出现频率与所述第m分段频率之间的差值是否大于一预设分段频率阈值;若所述差值大于所述预设分段频率阈值,将所述第m个分段信息确定为所述第二标识信息,共确定出所述N个第二标识信息。
较佳的,所述扩展模块203具体可以用于:确定所述N个第二标识信息中的第r个第二标识信息在所述待处理信息中占用的第r个标识长度;r分别取不小1且不大于N的整数;根据所述第r个标识长度对所述第r个第二标识信息进行扩展,获得与所述第r个第二标识信息对应的、包含有h个扩展信息的第r个扩展信息组,共获得所述N’个扩展信息组;其中每个扩展信息的扩展长度不小于所述第r个标识长度;h为正整数;根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证;令验证成功的扩展信息构成所述第二信息集合。
较佳的,所述扩展模块203具体可以用于:确定所述第r个第二标识信息的起始标识字符、终止标识字符;及,确定所述h个扩展信息中的第x个扩展信息的起始扩展字符、终止扩展字符;x分别取不小于1且不大于h的整数;验证所述起始标识字符与所述起始扩展字符是否匹配,及所述终止标识字符与所述终止扩展字符是否匹配;其中,若所述起始标识字符与所述起始扩展字符匹配成功,或所述终止标识字符与所述终止扩展字符匹配成功,则确定对所述第x个扩展信息验证成功。
较佳的,所述扩展模块203具体还可以用于:确定所述r个第二标识信息在所述待处理信息集合中出现的第r分段频率;及,确定匹配成功的所述第x个扩展信息在所述待处理信息集合中出现的第x扩展频率;判断所述第r分段频率与所述第x扩展频率之间的差值是否大于第二预设候选频率阈值;若所述差值大于所述第二预设候选频率阈值,则确定对所述第x个扩展信息验证成功。
较佳的,本发明实施例中,请参见图4,所述电子设备还包括判断模块401及标记模块402。
所述判断模块401可以用于:判断所述待处理信息集合中是否存在与所述更新信息集合中的至少一个更新信息相匹配的待处理信息。
所述标记模块402可以用于:若有,将该匹配的待处理信息标记为无关信息。
本发明实施例中提供了一种信息处理方法,应用于一电子设备中,所述电子设备包括一初始信息集合和待处理信息集合,所述初始信息集合包含有至少一个初始信息,所述待处理信息集合中包含有至少一个待处理信息,所述方法包括:在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息;在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于M的正整数;在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于N的正整数;将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
本发明实施例中,在获得所述更新信息集合时是由所述电子设备自动完成,无需用户手动操作,不仅提高了工作效率,也提高了确定无关语时的准确度。
本发明实施例中,根据对所述初始信息集合进行处理及扩展,获得了所述更新信息集合,获得的所述更新信息集合相较于现有技术中的无关语集合来说所包含的无关语更多,实用性更强。例如,初始信息为无关语“怎么”,则获得的更新信息可以是“怎么回事”、“怎么办”,等等,即所述更新信息是所述初始信息的延伸,比初始信息更为丰富。且,因所述初始信息具有无关语性质,则根据所述初始信息获得的所述更新信息也具有较强的无关语性质,故所述更新信息的准确性较高。
较佳的,在建立所述更新信息集合后,通过该更新信息集合在语料库中查找无关语时,可以根据其中的更新信息与语料库进行匹配,则在语料库中匹配成功的词汇或句子就可以作为无关语,提高了在所述语料库中查找无关语的效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
具体来讲,本申请实施例中的信息处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与所述信息处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息;
在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于M的正整数;
在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于N的正整数;
将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
可选的,所述存储介质中存储的与步骤在所述至少一个初始信息中,确定M个第一标识信息,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
确定第i个初始信息在所述待处理信息集合中的第i个出现频率;i分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;
及,根据所述第i个初始信息在所述待处理信息中所处的位置,确定所述第i个初始信息位于待处理信息的第一位置区域的第一次数和位于待处理信息的第二位置区域的第二次数;
根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率;
若所述第i个出现频率大于所述预设出现频率阈值,且所述第i个有效频率大于预设有效频率阈值,则将所述第i个初始信息确定为所述第一标识信息,共确定出所述M个第一标识信息。
可选的,所述存储介质中存储的与步骤根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
根据所述第一次数、所述第二次数、及所述待处理信息集合中所包含的待处理信息的总数量的比值,确定所述第i个有效频率。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:在确定所述M个第一标识信息对应的计算机指令被执行之后被执行,在被执行时包括如下步骤:
确定所述M个第一标识信息中的第t个第一标识信息对应的所述第一次数和所述第二次数;t分别取不小于1且不大于M的整数;
比较所述第一次数和所述第二次数的大小,获得一比较结果;
当所述比较结果表明所述第一次数大于等于所述第二次数时,确定所述第t个第一标识信息为左侧标识信息,所述左侧标识信息具有第一标识参数,否则,确定所述第t个第一标识信息为右侧标识信息,所述右侧标识信息具有第二标识参数。
可选的,所述存储介质中存储的与步骤在所述待处理信息集合中,分别将每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’个搜索信息组,对应的计算机指令在具体被执行过程中,具体包括如下步骤
确定所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域;p分别取不小于1且不大于L的整数,L为不大于M的整数;在所述待处理信息中,向所述第一标识位置区域的左侧进行搜索,获得与所述第p个第一标识信息对应的第p个左侧搜索信息组,共获得L’个左侧搜索信息组;L’为不大于L的正整数;和/或
确定所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第二标识位置区域;q分别取不小于1且不大于R的整数,R为不大于M的整数,且L+R=M;在所述待处理信息中,向所述第二标识位置区域的右侧进行搜索,获得与所述第q个第一标识信息对应的第q个右侧搜索信息组,共获得R’个右侧搜索信息组;R’为不大于R的正整数,且L’+R’=M’;
令所述L’个左侧搜索信息组与所述R’个右侧搜索信息组构成所述M’个搜索信息组。
可选的,所述存储介质中存储的与步骤确定所述M’个搜索信息组中包含的所述至少一个搜索信息,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
确定所述M’个搜索信息组中的第p个左侧搜索信息在所述待处理信息集合中出现的第一频率,和/或确定所述M’个搜索信息组中的第q个右侧搜索信息在所述待处理信息集合中出现的第二频率;
令频率值大于第一预设候选频率阈值的所述第一频率对应的第p个左侧搜索信息为所述搜索信息,和/或令频率值大于所述第一预设候选频率阈值的所述第二频率对应的第q个右侧搜索信息为所述搜索信息。
可选的,所述存储介质中存储的与步骤所述在所述至少一个初始信息中,确定N个第二标识信息,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
确定第j个初始信息在所述待处理信息集合中的第j个出现频率;j分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;
将所述第j个初始信息按照预设拆分条件进行拆分,获得k个分段信息;k为正整数;
确定所述k个分段信息中的第m个分段信息在所述待处理信息集合中出现的第m分段频率;m分别取不小于1且不大于k的整数;
判断所述第j个出现频率与所述第m分段频率之间的差值是否大于一预设分段频率阈值;
若所述差值大于所述预设分段频率阈值,将所述第m个分段信息确定为所述第二标识信息,共确定出所述N个第二标识信息。
可选的,所述存储介质中存储的与步骤在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N’个扩展信息组中包含的至少一个扩展信息构成第二信息集合,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
确定所述N个第二标识信息中的第r个第二标识信息在所述待处理信息中占用的第r个标识长度;r分别取不小1且不大于N的整数;
根据所述第r个标识长度对所述第r个第二标识信息进行扩展,获得与所述第r个第二标识信息对应的、包含有h个扩展信息的第r个扩展信息组,共获得所述N’个扩展信息组;其中每个扩展信息的扩展长度不小于所述第r个标识长度;h为正整数;
根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证;
令验证成功的扩展信息构成所述第二信息集合。
可选的,所述存储介质中存储的与步骤根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
确定所述第r个第二标识信息的起始标识字符、终止标识字符;
及,确定所述h个扩展信息中的第x个扩展信息的起始扩展字符、终止扩展字符;x分别取不小于1且不大于h的整数;
验证所述起始标识字符与所述起始扩展字符是否匹配,及所述终止标识字符与所述终止扩展字符是否匹配;
其中,若所述起始标识字符与所述起始扩展字符匹配成功,或所述终止标识字符与所述终止扩展字符匹配成功,则确定对所述第x个扩展信息验证成功。
较佳的,确定对所述第x个扩展信息验证成功,包括:
确定所述r个第二标识信息在所述待处理信息集合中出现的第r分段频率;
及,确定匹配成功的所述第x个扩展信息在所述待处理信息集合中出现的第x扩展频率;
判断所述第r分段频率与所述第x扩展频率之间的差值是否大于第二预设候选频率阈值;
若所述差值大于所述第二预设候选频率阈值,则确定对所述第x个扩展信息验证成功。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:在获得所述更新信息集合对应的计算机指令被执行之后被执行,在被执行时包括如下步骤:
判断所述待处理信息集合中是否存在与所述更新信息集合中的至少一个更新信息相匹配的待处理信息;
若有,将该匹配的待处理信息标记为无关信息。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (22)
1.一种信息处理方法,应用于一电子设备中,所述电子设备包括一初始信息集合和待处理信息集合,所述初始信息集合包含有至少一个初始信息,所述待处理信息集合中包含有至少一个待处理信息,所述方法包括:
在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息;
在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于或等于M的正整数;
在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于或等于N的正整数;
将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
2.如权利要求1所述的方法,其特征在于,所述在所述至少一个初始信息中,确定M个第一标识信息,具体为:
确定第i个初始信息在所述待处理信息集合中的第i个出现频率;i分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;
及,根据所述第i个初始信息在所述待处理信息中所处的位置,确定所述第i个初始信息位于待处理信息的第一位置区域的第一次数和位于待处理信息的第二位置区域的第二次数;
根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率;
若所述第i个出现频率大于所述预设出现频率阈值,且所述第i个有效频率大于预设有效频率阈值,则将所述第i个初始信息确定为所述第一标识信息,共确定出所述M个第一标识信息。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率,具体为:
根据所述第一次数、所述第二次数、及所述待处理信息集合中所包含的待处理信息的总数量的比值,确定所述第i个有效频率。
4.如权利要求2或3所述的方法,其特征在于,在确定所述M个第一标识信息之后,还包括:
确定所述M个第一标识信息中的第t个第一标识信息对应的所述第一次数和所述第二次数;t分别取不小于1且不大于M的整数;
比较所述第一次数和所述第二次数的大小,获得一比较结果;
当所述比较结果表明所述第一次数大于等于所述第二次数时,确定所述第t个第一标识信息为左侧标识信息,所述左侧标识信息具有第一标识参数,否则,确定所述第t个第一标识信息为右侧标识信息,所述右侧标识信息具有第二标识参数。
5.如权利要求4所述的方法,其特征在于,所述在所述待处理信息集合中,分别将每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’个搜索信息组,具体为:
确定所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域;p分别取不小于1且不大于L的整数,L为不大于M的整数;在所述待处理信息中,向所述第一标识位置区域的左侧进行搜索,获得与所述第p个第一标识信息对应的第p个左侧搜索信息组,共获得L’个左侧搜索信息组;L’为不大于L的正整数;和/或
确定所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第二标识位置区域;q分别取不小于1且不大于R的整数,R为不大于M的整数,且L+R=M;在所述待处理信息中,向所述第二标识位置区域的右侧进行搜索,获得与所述第q个第一标识信息对应的第q个右侧搜索信息组,共获得R’个右侧搜索信息组;R’为不大于R的正整数,且L’+R’=M’;
令所述L’个左侧搜索信息组与所述R’个右侧搜索信息组构成所述M’个搜索信息组。
6.如权利要求5所述的方法,其特征在于,确定所述M’个搜索信息组中包含的所述至少一个搜索信息,具体为:
确定所述M’个搜索信息组中的第p个左侧搜索信息在所述待处理信息集合中出现的第一频率,和/或确定所述M’个搜索信息组中的第q个右侧搜索信息在所述待处理信息集合中出现的第二频率;
令频率值大于第一预设候选频率阈值的所述第一频率对应的第p个左侧搜索信息为所述搜索信息,和/或令频率值大于所述第一预设候选频率阈值的所述第二频率对应的第q个右侧搜索信息为所述搜索信息。
7.如权利要求1所述的方法,其特征在于,所述在所述至少一个初始信息中,确定N个第二标识信息,具体为:
确定第j个初始信息在所述待处理信息集合中的第j个出现频率;j分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;
将所述第j个初始信息按照预设拆分条件进行拆分,获得k个分段信息;k为正整数;
确定所述k个分段信息中的第m个分段信息在所述待处理信息集合中出现的第m分段频率;m分别取不小于1且不大于k的整数;
判断所述第j个出现频率与所述第m分段频率之间的差值是否大于一预设分段频率阈值;
若所述差值大于所述预设分段频率阈值,将所述第m个分段信息确定为所述第二标识信息,共确定出所述N个第二标识信息。
8.如权利要求7所述的方法,其特征在于,在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N’个扩展信息组中包含的至少一个扩展信息构成第二信息集合,具体为:
确定所述N个第二标识信息中的第r个第二标识信息在所述待处理信息中占用的第r个标识长度;r分别取不小1且不大于N的整数;
根据所述第r个标识长度对所述第r个第二标识信息进行扩展,获得与所述第r个第二标识信息对应的、包含有h个扩展信息的第r个扩展信息组,共获得所述N’个扩展信息组;其中每个扩展信息的扩展长度不小于所述第r个标识长度;h为正整数;
根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证;
令验证成功的扩展信息构成所述第二信息集合。
9.如权利要求8所述的方法,其特征在于,所述根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证,包括:
确定所述第r个第二标识信息的起始标识字符、终止标识字符;
及,确定所述h个扩展信息中的第x个扩展信息的起始扩展字符、终止扩展字符;x分别取不小于1且不大于h的整数;
验证所述起始标识字符与所述起始扩展字符是否匹配,及所述终止标识字符与所述终止扩展字符是否匹配;
其中,若所述起始标识字符与所述起始扩展字符匹配成功,或所述终止标识字符与所述终止扩展字符匹配成功,则确定对所述第x个扩展信息验证成功。
10.如权利要求9所述的方法,其特征在于,确定对所述第x个扩展信息验证成功,包括:
确定所述r个第二标识信息在所述待处理信息集合中出现的第r分段频率;
及,确定匹配成功的所述第x个扩展信息在所述待处理信息集合中出现的第x扩展频率;
判断所述第r分段频率与所述第x扩展频率之间的差值是否大于第二预设候选频率阈值;
若所述差值大于所述第二预设候选频率阈值,则确定对所述第x个扩展信息验证成功。
11.如权利要求1-10任一权项所述的方法,其特征在于,在获得所述更新信息集合之后,还包括:
判断所述待处理信息集合中是否存在与所述更新信息集合中的至少一个更新信息相匹配的待处理信息;
若有,将该匹配的待处理信息标记为无关信息。
12.一种电子设备,所述电子设备中具有一初始信息集合和待处理信息集合,所述初始信息集合包含有至少一个初始信息,所述待处理信息集合中包含有至少一个待处理信息,所述电子设备包括:
第一确定模块,用于在所述至少一个初始信息中,确定M个第一标识信息和N个第二标识信息,M、N均为正整数;其中,每个第一标识信息为在所述待处理信息集合中出现频率大于一预设出现频率阈值的初始信息,每个第二标识信息为将所述至少一个初始信息拆分后获得的至少一个分段信息中满足一预设条件的分段信息;
搜索模块,用于在所述待处理信息集合中,分别根据每个第一标识信息按预定规则进行搜索,获得与所述M个第一标识信息相应的M’搜索信息组,其中,所述M’搜索信息组中包含的至少一个搜索信息构成第一信息集合;M’为小于M的正整数;
扩展模块,用于在所述待处理信息集合中,分别根据每个第二标识信息在所述待处理信息中进行扩展,获得与所述N个第二标识信息相应的N’个扩展信息组,所述N个扩展信息组中包含的至少一个扩展信息构成第二信息集合;N’为小于N的正整数;
合并模块,用于将所述第一信息集合、所述第二信息集合与所述初始信息集合进行合并,获得包含至少一个更新信息的更新信息集合,所述更新信息集合用于验证所述至少一个待处理信息中是否存在所述更新信息,所述更新信息为所述搜索信息、所述扩展信息或所述初始信息。
13.如权利要求12所述的电子设备,其特征在于,所述第一确定模块具体用于:
确定第i个初始信息在所述待处理信息集合中的第i个出现频率;i分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;及,根据所述第i个初始信息在所述待处理信息中所处的位置,确定所述第i个初始信息位于待处理信息的第一位置区域的第一次数和位于待处理信息的第二位置区域的第二次数;根据所述第一次数和所述第二次数,确定所述第i个初始信息在所述待处理信息集合中的第i个有效频率;若所述第i个出现频率大于所述预设出现频率阈值,且所述第i个有效频率大于预设有效频率阈值,则将所述第i个初始信息确定为所述第一标识信息,共确定出所述M个第一标识信息。
14.如权利要求13所述的电子设备,其特征在于,所述第一确定模块还用于根据所述第一次数、所述第二次数、及所述待处理信息集合中所包含的待处理信息的总数量的比值,确定所述第i个有效频率。
15.如权利要求13或14所述的电子设备,其特征在于,所述电子设备还包括:
第二确定模块,用于确定所述M个第一标识信息中的第t个第一标识信息对应的所述第一次数和所述第二次数;t分别取不小于1且不大于M的整数;
比较模块,用于比较所述第一次数和所述第二次数的大小,获得一比较结果;
第三确定模块,用于当所述比较结果表明所述第一次数大于等于所述第二次数时,确定所述第t个第一标识信息为左侧标识信息,所述左侧标识信息具有第一标识参数,否则,确定所述第t个第一标识信息为右侧标识信息,所述右侧标识信息具有第二标识参数。
16.如权利要求15所述的电子设备,其特征在于,所述搜索模块具体用于:
确定所述L个第一标识信息中的第p个第一标识信息位于所述待处理信息中的第一标识位置区域;p分别取不小于1且不大于L的整数,L为不大于M的整数;在所述待处理信息中,向所述第一标识位置区域的左侧进行搜索,获得与所述第p个第一标识信息对应的第p个左侧搜索信息组,共获得L’个左侧搜索信息组;L’为不大于L的正整数;和/或,确定所述R个第一标识信息中的第q个第一标识信息位于所述待处理信息中的第二标识位置区域;q分别取不小于1且不大于R的整数,R为不大于M的整数,且L+R=M;在所述待处理信息中,向所述第二标识位置区域的右侧进行搜索,获得与所述第q个第一标识信息对应的第q个右侧搜索信息组,共获得R’个右侧搜索信息组;R’为不大于R的正整数,且L’+R’=M’;令所述L’个左侧搜索信息组与所述R’个右侧搜索信息组构成所述M’个搜索信息组。
17.如权利要求16所述的电子设备,其特征在于,所述搜索模块具体还用于:确定所述M’个搜索信息组中的第p个左侧搜索信息在所述待处理信息集合中出现的第一频率,和/或确定所述M’个搜索信息组中的第q个右侧搜索信息在所述待处理信息集合中出现的第二频率;令频率值大于第一预设候选频率阈值的所述第一频率对应的第p个左侧搜索信息为所述搜索信息,和/或令频率值大于所述第一预设候选频率阈值的所述第二频率对应的第q个右侧搜索信息为所述搜索信息。
18.如权利要求12所述的电子设备,其特征在于,所述第一确定模块具体用于:确定第j个初始信息在所述待处理信息集合中的第j个出现频率;j分别取不小于1且不大于所述初始信息集合中包含的初始信息的总量的整数;将所述第j个初始信息按照预设拆分条件进行拆分,获得k个分段信息;k为正整数;确定所述k个分段信息中的第m个分段信息在所述待处理信息集合中出现的第m分段频率;m分别取不小于1且不大于k的整数;判断所述第j个出现频率与所述第m分段频率之间的差值是否大于一预设分段频率阈值;若所述差值大于所述预设分段频率阈值,将所述第m个分段信息确定为所述第二标识信息,共确定出所述N个第二标识信息。
19.如权利要求18所述的电子设备,其特征在于,所述扩展模块具体用于:确定所述N个第二标识信息中的第r个第二标识信息在所述待处理信息中占用的第r个标识长度;r分别取不小1且不大于N的整数;根据所述第r个标识长度对所述第r个第二标识信息进行扩展,获得与所述第r个第二标识信息对应的、包含有h个扩展信息的第r个扩展信息组,共获得所述N’个扩展信息组;其中每个扩展信息的扩展长度不小于所述第r个标识长度;h为正整数;根据预设验证条件对所述第r个扩展信息组中的所述h个扩展信息进行验证;令验证成功的扩展信息构成所述第二信息集合。
20.如权利要求19所述的电子设备,其特征在于,所述扩展模块具体用于:确定所述第r个第二标识信息的起始标识字符、终止标识字符;及,确定所述h个扩展信息中的第x个扩展信息的起始扩展字符、终止扩展字符;x分别取不小于1且不大于h的整数;验证所述起始标识字符与所述起始扩展字符是否匹配,及所述终止标识字符与所述终止扩展字符是否匹配;其中,若所述起始标识字符与所述起始扩展字符匹配成功,或所述终止标识字符与所述终止扩展字符匹配成功,则确定对所述第x个扩展信息验证成功。
21.如权利要求20所述的电子设备,其特征在于,所述扩展模块具体还用于:确定所述r个第二标识信息在所述待处理信息集合中出现的第r分段频率;及,确定匹配成功的所述第x个扩展信息在所述待处理信息集合中出现的第x扩展频率;判断所述第r分段频率与所述第x扩展频率之间的差值是否大于第二预设候选频率阈值;若所述差值大于所述第二预设候选频率阈值,则确定对所述第x个扩展信息验证成功。
22.如权利要求12-21任一权项所述的电子设备,其特征在于,所述电子设备还包括:
判断模块,用于判断所述待处理信息集合中是否存在与所述更新信息集合中的至少一个更新信息相匹配的待处理信息;
标记模块,用于若有,将该匹配的待处理信息标记为无关信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310685298.XA CN104714939B (zh) | 2013-12-13 | 2013-12-13 | 一种信息处理方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310685298.XA CN104714939B (zh) | 2013-12-13 | 2013-12-13 | 一种信息处理方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104714939A true CN104714939A (zh) | 2015-06-17 |
CN104714939B CN104714939B (zh) | 2017-09-29 |
Family
ID=53414285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310685298.XA Active CN104714939B (zh) | 2013-12-13 | 2013-12-13 | 一种信息处理方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104714939B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516063A (zh) * | 2019-07-11 | 2019-11-29 | 网宿科技股份有限公司 | 一种服务系统的更新方法、电子设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234832A1 (en) * | 2008-03-12 | 2009-09-17 | Microsoft Corporation | Graph-based keyword expansion |
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
US20110035377A1 (en) * | 2008-04-23 | 2011-02-10 | Fang Wang | Method |
US20110153311A1 (en) * | 2009-12-17 | 2011-06-23 | Boegl Andreas | Method and an apparatus for automatically providing a common modelling pattern |
CN102682120A (zh) * | 2012-05-15 | 2012-09-19 | 合一网络技术(北京)有限公司 | 一种网络评论精华文章的获取方法、装置和系统 |
-
2013
- 2013-12-13 CN CN201310685298.XA patent/CN104714939B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234832A1 (en) * | 2008-03-12 | 2009-09-17 | Microsoft Corporation | Graph-based keyword expansion |
US20110035377A1 (en) * | 2008-04-23 | 2011-02-10 | Fang Wang | Method |
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
US20110153311A1 (en) * | 2009-12-17 | 2011-06-23 | Boegl Andreas | Method and an apparatus for automatically providing a common modelling pattern |
CN102682120A (zh) * | 2012-05-15 | 2012-09-19 | 合一网络技术(北京)有限公司 | 一种网络评论精华文章的获取方法、装置和系统 |
Non-Patent Citations (2)
Title |
---|
DONALD METZLER ET AL.: "Generalized inverse document frequency", 《CIKM 08 PROCEEDINGS OF THE 17TH ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
杨建林 等: "基于关键词对逆文档频率的主题新颖度度量方法", 《情报理论与实践》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516063A (zh) * | 2019-07-11 | 2019-11-29 | 网宿科技股份有限公司 | 一种服务系统的更新方法、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104714939B (zh) | 2017-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102281178B1 (ko) | 멀티-레벨 음성 인식 방법 및 장치 | |
KR101233561B1 (ko) | 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
WO2016037519A1 (zh) | 一种输入方法、装置及电子设备 | |
CN106708799B (zh) | 一种文本纠错方法、装置及终端 | |
CN107016994A (zh) | 语音识别的方法及装置 | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
CN105389400A (zh) | 语音交互方法及装置 | |
CN104268166A (zh) | 一种输入方法、装置和电子设备 | |
US20140280184A1 (en) | Updating Index Information When Adding Or Removing Documents | |
CN110070859B (zh) | 一种语音识别方法及装置 | |
CN104423623B (zh) | 一种选词处理方法及电子设备 | |
CN104267922A (zh) | 一种信息处理方法及电子设备 | |
CN101826099A (zh) | 一种相似文档识别、文档扩散度确定的方法及系统 | |
US20130262090A1 (en) | System and method for reducing semantic ambiguity | |
US20190056235A1 (en) | Path querying method and device, an apparatus and non-volatile computer storage medium | |
US11048763B2 (en) | Method and device for searching character string | |
WO2024045475A1 (zh) | 语音识别方法、装置、设备和介质 | |
WO2016041428A1 (zh) | 一种英文的输入方法和装置 | |
CN105373527A (zh) | 一种省略恢复方法及问答系统 | |
CN103152633A (zh) | 一种关键词的识别方法及装置 | |
CN110738048B (zh) | 一种关键词提取方法、装置及终端设备 | |
CN105244024A (zh) | 一种语音识别方法及装置 | |
CN104714939A (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |