CN102184195B - 用于获取字符串间相似度的方法、装置和设备 - Google Patents

用于获取字符串间相似度的方法、装置和设备 Download PDF

Info

Publication number
CN102184195B
CN102184195B CN201110099472.3A CN201110099472A CN102184195B CN 102184195 B CN102184195 B CN 102184195B CN 201110099472 A CN201110099472 A CN 201110099472A CN 102184195 B CN102184195 B CN 102184195B
Authority
CN
China
Prior art keywords
information
character string
pronunciation
similarity
coupling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110099472.3A
Other languages
English (en)
Other versions
CN102184195A (zh
Inventor
何径舟
吴中勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110099472.3A priority Critical patent/CN102184195B/zh
Publication of CN102184195A publication Critical patent/CN102184195A/zh
Application granted granted Critical
Publication of CN102184195B publication Critical patent/CN102184195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明的目的是提供一种用于获取字符串间相似度的方法,该方法包括以下步骤:获取第一字符串信息及第二字符串信息;获取所述第一字符串信息的第一读音信息;基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息。根据本发明的方法,不仅能够较好地判断属于同种语言的两个字符串信息间的相似度,还能够较好地判断分别属于不同语言的两个字符串信息间,特别是外来语与该外来语的来源语言的之间相似度,进一步提高了相似度判断的准确性。

Description

用于获取字符串间相似度的方法、装置和设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于获取字符串间相似度的方法、装置和设备。
背景技术
现有技术中,仅提供了属于同一语言的字符串间的相似度判断方法。然而,由于语言间的融合,不同语言间往往存在发音相似,意义相同的词汇,但由于不同语言间的字符串所采用的字符及字符组合所表达的意义往往不同,使得不同语言的字符串间的相似度较难判断。
因此,如何提供一种能够判断不同语言字符串间的相似度判断方法,已成为本领域技术人员需要解决的问题。
发明内容
本发明的目的是提供一种用于获取字符串间相似度的方法、装置和设备。
根据本发明的一个方面,提供一种计算机实现的在搜索、纠错和/或同义词挖掘中用于获取字符串间相似度的方法,其中,该方法包括以下步骤:
a获取第一字符串信息及第二字符串信息;
b获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
c基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息。
根据本发明的另一个方面,还提供了一种在搜索、纠错和/或同义词挖掘中用于获取不同语言字符串间相似度的相似度确定装置,其中,该相似度确定装置包括:
第一获取装置,用于第一字符串信息及第二字符串信息;
第二获取装置,用于获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
第一确定装置,用于基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息。
与现有技术相比,本发明具有以下优点:1)通过将两个字符串信息中一者的读音信息与另一个字符串信息进行比较来确定两个字符串信息间的相似度信息,不仅能够较好地判断属于同种语言的两个字符串信息间的相似度,还能够较好地判断分别属于不同语言的两个字符串信息间,特别是外来语与该外来语的来源语言之间的相似度;2)能够根据读音信息中包含的读音单元与字符串信息中包含的字符串片段来确定两个字符串信息间的相似度信息,进一步提高了相似度判断的准确性;3)通过结合历史概率信息,能够大幅减少相似度确定装置的资源消耗,更快获得两个字符串信息间的相似度信息;4)本发明提供的相似度判断方式,适用于各种需要进行相似度判断的场合,例如,在搜索场合中用于来自用户的输入序列与文本候选项所包含的关键词间的相似度判断;又例如,在纠错场合中用于来自用户的输入序列与纠错词库中所包含的关键词间的相似度判断;再例如,在同义词挖掘过程中,用于两个待判断的字符串间的相似度判断等。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个方面的用于获取字符串间相似度的方法流程图;
图2为本发明一个优选实施例的用于获取字符串间相似度的方法流程图;
图3为本发明另一优选实施例的用于获取字符串间相似度的方法流程图;
图4为本发明另一个优选实施例的用于获取字符串间相似度的方法流程图;
图5为本发明再一个优选实施例的用于建立或更新预定读音匹配库的方法流程图;
图6为本发明另一个方面的用于获取字符串间相似度的相似度确定装置的结构示意图;
图7为本发明一个优选实施例的用于获取字符串间相似度的相似度确定装置的结构示意图;
图8为本发明另一优选实施例的用于获取字符串间相似度的相似度确定装置的结构示意图;
图9为本发明另一个优选实施例的用于获取字符串间相似度的相似度确定装置的结构示意图;
图10为本发明再一个优选实施例的用于建立或更新预定读音匹配库的装置的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为本发明一个方面用于获取字符串间相似度的方法流程图。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制器来完成,为简明起见,以下将所述操作系统或处理控制器统称为相似度确定装置。其中,该计算机设备包括但不限于:1)用户设备;2)网络设备。其中,所述用户设备包括但不限于:个人电脑、智能手机、PDA等;所述网络设备包括但不限于:单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S1中,相似度确定装置获取第一字符串信息及第二字符串信息。优选地,该第一字符串信息及第二字符串信息分别属于两种语言。
其中,相似度确定装置获取所述第一字符串信息及第二字符串信息的方式包括但不限于:
1)获取预存储的需要进行相似度判断的第一字符串信息及第二字符串信息;
2)获取相似度确定装置所属计算机设备或其他计算机设备当前需要进行相似度判断处理的第一字符串信息及第二字符串信息。
例如,第一字符串信息来自用户当前输入的输入序列,第二字符串信息来自计算机设备根据第一字符串信息来进行检索的文本信息,相似度确定装置所属计算机设备或其他计算机设备当前需要判断第一字符串信息与第二字符串信息间的相似度以确定是否将该文本信息所属资源提供给用户,则相似度确定装置获取其所属计算机设备或其他计算机设备提供的第一字符串信息及第二字符串信息。
又例如,第二字符串信息来自用户在应用程序中输入的输入序列,第一字符串信息来自该应用程序所属计算机设备的纠错词库,该应用程序所属计算机设备当前需要判断第一字符串信息与第二字符串信息间的相似度以确定是否将第一字符串信息作为纠错提示信息提供给用户,则相似度确定装置获取该应用程序所属计算机设备提供的第一字符串信息及第二字符串信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取第一字符串信息及第二字符串信息的实现方式,均应包含在本发明的范围内。
接着,在步骤S2中,相似度确定装置获取所述第一字符串信息的第一读音信息。
其中,所述第一读音信息包括但不限于:1)该第一字符串信息的注音信息,例如,第一字符串信息“cream”的读音信息包括其Metaphone注音信息“KRM”等;2)由该第一字符串信息划分出的字符串片段,例如,第一字符串信息“cream”的读音信息包括“c”、“r”、“ea”及“m”。
其中,相似度确定装置获取所述第一读音信息的方式包括但不限于:
1)相似度确定装置获取预设的该第一字符串信息的第一读音信息;
2)相似度确定装置根据预定的注音规则,对所述第一字符串信息进行注音,以获得所述第一读音信息。
其中,所述注音规则包括现有技术所提供的所有注音方式,包括但不限于:Metaphone、IPA(intemational phonetic alphabet)、拼音、音标等。
例如,相似度确定装置根据Metaphone注音规则,对第一字符串信息进行注音,获得第一读音信息“KRM”。
3)相似度确定装置根据预置字符读音组合信息,对所述至第一字符串信息进行划分,以将划分后的字符串片段作为第一读音信息。其中,所述预置字符读音组合信息包括多个字符读音组合。
具体地,相似度确定装置根据所述第一字符串信息在所述预置字符读音组合信息中进行查询,以获得包含于第一字符串信息中的一个或多个字符读音组合,并根据所获得的多个字符读音组合来将第一字符串信息划分为多个的字符串片段,以将该多个字符串片段作为第一读音信息。
例如,相似度确定装置根据第一字符串信息“cream”来在预置字符读音组合信息中进行查询,获得字符读音组合“c”、字符读音组合“rea”及字符读音组合“m”,则相似度确定装置将第一字符串信息“cream”划分为“c/rea/m”,以获得“c_rea_m”作为第一读音信息。
又例如,相似度确定装置根据第一字符串信息“cream”来在预置字符读音组合信息中进行查询,获得字符读音组合“c”、字符读音组合“r”、字符读音组合“e”、字符读音组合“a”、字符读音组合“ea”、字符读音组合“re”、字符读音组合“rea”及字符读音组合“m”,则相似度确定装置由多种划分方式中选择划分后所包含字符读音组合数量最少的划分方式“c/rea/m”,以获得“c_rea_m”作为第一读音信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据预置字符读音组合信息,对所述至第一字符串信息进行划分,以将划分后的字符串片段作为第一读音信息的实现方式,均应包含在本发明的范围内。
接着,在步骤S4中,相似度确定装置基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息。其中,所述相似度信息包括但不限于以下至少一项:1)相似度等级;2)相似度值等。
例如,在步骤S1中,相似度确定装置获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,并且,在步骤S2中,相似度确定装置获得第一读音信息“KRM”;相似度确定装置在预定读音匹配库中查询获得第一读音信息“KRM”与第二字符串信息“クリ一ム”间的匹配概率为第二等级,则相似度确定装置确定第一及第二字符串信息间的相似度等级为第二等级。
又例如,在步骤S1中,相似度确定装置获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,并且,在步骤S2中,相似度确定装置获得第一读音信息“KRM”;相似度确定装置在预定读音匹配库中查询获得“K”与“ク”的匹配概率为0.4,“R”与“リ一”的匹配概率为0.8,“M”与“ム”的匹配概率为0.5,则相似度确定装置确定第一及第二字符串信息间的相似度值=0.4*0.8*0.5=0.16。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,根据本发明的方法还包括步骤S3(图未示),步骤S4进一步包括步骤S4’(图未示)。
在步骤S3中,相似度确定装置获取所述第二字符串信息的第二读音信息。其中,相似度确定装置获取第二读音信息的方式与前述步骤S2中获取第一读音信息的方式相同或相似,在此不再赘述。需要说明的是,步骤S3与步骤S2并无先后顺序。
在步骤S4’中,相似度确定装置基于所述预定读音匹配库,根据所述第一字符串信息及所述第二读音信息,并结合所述第二字符串信息及所述第一读音信息,确定所述第一及第二字符串信息间的相似度信息。
具体地,相似度确定装置基于所述预定读音匹配库,获得分别和所述第二字符串信息与所述第一读音信息以及所述第一字符串信息与所述第二读音信息相关的匹配概率;接着,相似度确定装置根据所获得匹配概率,确定所述第一及第二字符串信息间的相似度信息。其中,相似度确定装置获取第二字符串信息与第一读音信息间的匹配概率的方式已在前述步骤S4中予以详述,且相似度确定装置获取第一字符串信息与第二读音信息间的匹配概率的方式和其获取第二字符串信息与第一读音信息间的匹配概率的方式相同或相似,在此不再赘述。
例如,在步骤S1中,相似度确定装置获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,并且,在步骤S2中,相似度确定装置获得第一读音信息“KRM”,在步骤S3中,相似度确定装置获得第二读音信息“ku_ri-_mu”;相似度确定装置在预定读音匹配库中查询获得“K”与“ク”的匹配概率为0.4,“R”与“リ一”的匹配概率为0.8,“M”与“ム”的匹配概率为0.5,并获得“ku_ri-_mu”与“cream”的匹配概率为0.45,则相似度确定装置确定第一及第二字符串信息间的相似度值=(0.45+0.4*0.8*0.5)/2=0.305。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述预定读音匹配库,根据所述第一字符串信息及所述第二读音信息,并结合所述第二字符串信息及所述第一读音信息,确定所述第一及第二字符串信息间的相似度信息的实现方式,例如,选择高于0.4*0.8*0.5=0.16的值0.45来作为第一及第二字符串信息间的相似度信息,又例如,确定第一及第二字符串信息间的相似度信息=0.452+(0.4*0.8*0.5)2=0.2281等,均应包含在本发明的范围内。
作为本发明的优选方案之一,根据本发明的方法还包括步骤S5(图未示)、步骤S6(图未示)、步骤S7(图未示),步骤S2进一步包括步骤S2’(图未示)。其中,步骤S4至步骤S6在前述步骤S1之后执行。在本实施例中,第一字符串信息及第二字符串信息分别属于两种语言。
在步骤S5中,相似度确定装置根据预定的转换规则,将所述第一及第二字符串信息中的一个转换为目标字符串信息,其中,所述目标字符串信息所属语言与另一个字符串信息所属语言相同。
其中,所述预定的转换规则包括将一个字符串信息转换为目标字符串信息的转换方式。优选地,该转换规则中还包括根据第一及第二字符串信息所属类型中来确定待转换字符串信息的规则。
例如,若在步骤S1中,相似度确定装置获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,且转换规则中预设将第一字符串信息转换为日语片假名,则相似度确定装置将第一字符串信息转换为目标字符串信息“クレアム”。
又例如,若在步骤S1中,相似度确定装置获得第一字符串信息“kurimu”及第二字符串信息“クリム”,且转换规则中预设将asc串转换为日语片假名;相似度确定装置分析第一及第二字符串信息,判断第一字符串信息为acs串,则相似度确定装置将第一字符串信息转换为目标字符串信息“クリム”。
需要说明的是,本领域技术人员应可根据实际情况和需求确定将将一个字符串信息转换为目标字符串信息的转换方式,在此不再赘述。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据预定的转换规则,将所述第一及第二字符串信息中的一个转换为目标字符串信息的实现方式,均应包含在本发明的范围内。
在步骤S6中,相似度确定装置判断所述目标语言字符串信息是否与另一个字符串信息相同。
在步骤S7中,当判断所述目标语言字符串信息与另一个字符串信息相同时,相似度确定装置确定所述两个字符串信息间的相似度信息为最高相似度信息。
例如,在步骤S6中,相似度确定装置判断在步骤S5中获得的目标字符串信息“クリム”与第二字符串信息“クリム”相同,则相似度确定装置确定第一及第二字符串信息间的相似度等级为最高等级,或者,相似度确定装置确定第一及第二字符串信息间的相似度值为最高值。
在步骤S2’中,当判断所述目标语言字符串信息与另一个字符串信息不同时,相似度确定装置获取所述第一字符串信息的第一读音信息。
具体地,当判断所述目标语言字符串信息与另一个字符串信息不同时,相似度确定装置获取所述第一字符串信息的第一读音信息,以执行后续步骤。
根据本发明的方法,通过将两个字符串信息中一者的读音信息与另一个字符串信息进行比较来确定两个字符串信息间的相似度信息。因此,根据本发明的方法不仅能够较好地判断属于同种语言的两个字符串信息间的相似度,还能够较好地判断分别属于不同语言的两个字符串信息间,特别是外来语与该外来语的来源语言,例如,日语片假名字符串与英文串,之间的相似度。
图2为本发明一个优选实施例的用于获取字符串间相似度的方法流程图。根据本实施例的方法包括步骤S1、步骤S2及步骤S4,其中,步骤S4进一步包括步骤S411及步骤S412。
步骤S1及步骤S2已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,在步骤S411中,相似度确定装置根据第一读音信息与第二字符串信息,在所述预定读音匹配库中进行匹配查询,以获得包含所述第一读音信息及所述第二字符串信息的第一匹配对,并从其中获取相应的第一匹配概率信息。其中,预定读音匹配库包括多个匹配对,每个匹配对包括预置读音信息、预置字符串信息及匹配概率信息。其中,匹配概率信息包括但不限于以下至少一项:1)匹配概率等级;2)匹配概率值等。
例如,在步骤S1中,相似度确定装置获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,并且,在步骤S2中,相似度确定装置获得第一读音信息“KRM”;相似度确定装置根据“クリ一ム”及“KRM”在预定读音匹配库的多个匹配对中进行查询,并获得包含“クリ一ム”及“KRM”的第一匹配对““KRM_クリ一ム_12.5”,则相似度确定装置由第一匹配对中获得第一读音信息及第二字符串信息间的第一匹配概率信息包括第一匹配概率值12.5。
需要说明的是,当未获得包含所述第一读音信息及所述第二字符串信息的第一匹配对时,确定第一匹配概率信息为最低等级或最小值。
接着,在步骤S412中,相似度确定装置根据所获取的第一匹配概率信息来确定所述第一读音信息与第二字符串信息的相似度信息。
例如,相似度确定装置直接将在步骤S411中所获得的第一匹配概率值作为所述第一读音信息与第二字符串信息的相似度信息。
又例如,相似度确定装置将在步骤S411中所获得的第一匹配概率值进行归一化处理后所得的值0.125作为所述第一读音信息与第二字符串信息的相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据第一读音信息与第二字符串信息,在所述预定读音匹配库中进行匹配查询,以获得包含所述第一读音信息及所述第二字符串信息的第一匹配对,并从其中获取相应的第一匹配概率信息,以根据所获取的第一匹配概率信息来确定所述第一读音信息与第二字符串信息的相似度信息的实现方式,例如,将由第一匹配对中所获得的第一匹配概率等级作为第一读音信息与第二字符串信息的相似度等级,又例如,将由第一匹配对中所获得的第一匹配概率等级进行降级或升级调整后,作为第一读音信息与第二字符串信息的相似度等级等,均应包含在本发明的范围内。
作为本发明的优选方案之一,根据本实施例的方法还包括步骤S3,步骤S4还包括步骤S411’(图未示),步骤S412进一步包括步骤S412’(图未示)。其中,步骤S3已在前述实施例中予以详述,在此不再赘述。
在步骤S411’中,相似度确定装置根据所述第一读音信息与所述第二字符串信息在所述预定读音匹配库中查询,以获得所述第一匹配对,并根据所述第二读音信息与所述第一字符串信息在所述预定读音匹配库中进行查询,以获得包括所述第二读音信息与第一字符串信息的第二匹配对。
其中,相似度确定装置根据所述第一读音信息与所述第二字符串信息获得所述第一匹配对的实现方式已在前述步骤S411中予以详述,在此不再赘述;相似度确定装置根据所述第二读音信息与所述第一字符串信息获得所述第二匹配对的实现方式与前述获得第一匹配对的实现方式相同或相似,在此不再赘述。
接着,在步骤S412’中,相似度确定装置由在前述步骤S411中所获得的所述第一匹配对中的第一匹配概率信息和所述第二匹配对中的第二匹配概率信息,来确定所述相似度信息。
例如,相似度确定装置由第一匹配对中获得第一读音信息与第二字符串信息间的第一匹配概率等级为第一等级,第二读音信息与第一字符串信息间的第二匹配概率等级为第三等级,则相似度确定装置确定第一及第二字符串信息间的相似度等级为第二等级。
又例如,相似度确定装置由第一匹配对中获得第一读音信息与第二字符串信息间的第一匹配概率值为12.5,第二读音信息与第一字符串信息间的第二匹配概率值为14.6,则相似度确定装置确定第一及第二字符串信息间的相似度值=(12.5+14.6)/2=13.55。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由所述第一匹配对中的第一匹配概率信息与第二匹配对中的第二匹配概率信息,来确定所述相似度信息的实现方式,例如,根据第二匹配概率等级来调整第一匹配概率等级,又例如,通过将第一匹配概率值及第二匹配概率值进行平方和、对数乘积等其他处理所得的值作为第一及第二字符串信息间的相似度值等,均应包含在本发明的范围内。
图3为本发明另一优选实施例的用于获取字符串间相似度的方法流程图。根据本实施例的方法包括步骤S1、步骤S2及步骤S4,其中,步骤S4进一步包括步骤S421及步骤S422。
步骤S1及步骤S2已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
本实施例中,预定读音匹配库中包括多个匹配对,每个匹配对包括预置读音单元、预置字符串片段及匹配概率信息。第一读音信息包括至少一个第一读音单元,所述第二字符串信息包括至少一个第二字符串片段;其中,所述第一读音单元为该第一读音信息所包含的一个独立单元,例如,当第一读音信息为“KRM”时,其包含三个第一读音单元“K”、“R”及“M”,当第一读音信息为“c_rea_m”时,其包含三个读音单元“c”、“rea”及“m”;所述第二字符串片段为该第二字符串信息所包含的任意字符或任意多个相邻字符组合,例如,当第二字符串信息为“クリ一ム”时,其所包含的字符串片段包括“ク”、“クリ”、“クリ一”、“クリ一ム”、“リ”、“リ一”、“リ一ム”、“一”、“一ム”及“ム”。
接着,在步骤S421中,相似度确定装置根据所述至少一个第一读音单元与所述至少一个第二字符串片段,在所述预定读音匹配库中进行查询,以获得至少一个第三匹配对,其中,所获得的每个第三匹配对包括所述至少一个第一读音单元之一与所述至少一个第二字符串片段之一。
例如,在步骤S1中,相似度确定装置获得第二字符串片段“クリ一ム”,在步骤S2中,相似度确定装置获得第一读音信息“KRM”;则相似度确定装置根据第二字符串片段“クリ一ム”及第一读音信息“KRM”在预定读音匹配库中进行查询,并获得包含一个第一读音单元及一个第二字符串片段的多个第三匹配对“K_ク_0.75”、“K_クリ_0.25”、“R_リ_0.25”、“R_リ一_0.5”、“R_一_0.25”、“M_ム_0.75”、“M_一ム_0.25”。
接着,在步骤S422中,相似度确定装置由所获得的至少一个第三匹配对中的匹配概率信息,来获得所述相似度信息。
具体地,相似度确定装置对所获得的至少一个第三匹配对中的匹配概率信息进行处理,以获得所述相似度信息。其中,所述匹配概率信息包括以下至少一项:1)匹配概率等级;2)匹配概率值。
例如,在步骤S421中,相似度确定装置获得第三匹配对“K_ク_0.75”、“K_クリ_0.25”、“R_リ_0.25”、“R_リ一_0.5”、“R_一_0.25”、“M_ム_0.75”及“M_一ム_0.25”,则相似度确定装置由该多个第三匹配对中获取匹配概率值,对所获得的匹配概率值由高至低进行排序,并将排序前三位的匹配概率值相乘以获得第一及第二字符串间的相似度信息=0.75*0.5*0.75=0.28125。
又例如,在步骤S421中,相似度确定装置获得第三匹配对“K_ク_第一等级”、“K_クリ_第三等级、“R_リ_第三等级”、“R_リ一_第二等级”、“R_一_第三等级”、“M_ム_第一等级”及“M_一ム_第三等级”;相似度确定装置由该多个第三匹配对中获取匹配概率等级,并统计获得第一等级数量为2,第二等级数量为1,第三等级数量为4,则相似度确定装置根据第一等级数量<第一读音单元数量,且(第一等级数量+第二等级数量)≥第一读音单元数量,确定第一及第二字符串间的相似度等级为第二等级。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所获得的多个第三匹配对中的匹配概率信息进行处理,以获得所述相似度信息的实现方式,例如,根据各个匹配概率等级的数量占所有匹配概率等级数量的比例来确定相似度等级,又例如,通过将所获得的多个匹配概率值进行平方和、对数乘积等其他处理所得的值作为第一及第二字符串信息间的相似度值等,均应包含在本发明的范围内。
作为本实施例的优选方案之一,前述步骤S421进一步包括步骤S4211(图未示)及步骤S4212(图未示),前述步骤S422进一步包括步骤S4221(图未示)及步骤S4222(图未示)。
在步骤S4211中,相似度确定装置获取所述至少一个第一读音单元及所述至少一个第二字符串片段间的所有第一匹配组合方式。
例如,对于第一读音信息“KRM”及第二字符串信息“クリ一ム”,相似度确定装置获得以下三个第一匹配组合方式:
Figure GDA00002809022500141
接着,在步骤S4212中,相似度确定装置在所述预定读音信息库中进行查询,以获得分别与各第一匹配组合方式对应的一个或多个第三匹配对。
具体地,相似度确定装置在预定读音信息库中查询各个第一匹配组合方式中所包含的相匹配的第一读音单元及第二字符串片段,以获得包含相匹配的第一读音单元及第二字符串片段的至少一个第三匹配对。
例如,相似度确定装置在预定读音信息库中查询,并将查询所得的分别包含“K”与“ク”、“R”与“リ”、“M”与“一ム”的第三匹配对“K_ク_0.75”、“R_リ_0.25”以及“M_一ム_0.25”作为与第一匹配组合方式A对应的第三匹配对;同样的,相似度确定装置获得与第一匹配组合方式B对应的第三匹配对“K_ク_0.75”、“R_リ一_0.5”和“M_ム_0.75”,以及与第一匹配组合方式C对应的第三匹配对“K_クリ_0.25”、“R_一_0.25”和“M_ム_0.75”。
接着,在步骤S4221中,相似度确定装置由所述一个或多个第三匹配对中的匹配概率信息,获得各第一匹配组合方式的匹配概率信息。
具体地,对于每一个第一匹配组合方式,相似度确定装置根据与其对应的一个或多个第三匹配对中的匹配概率信息,来获得该第一匹配组合方式的匹配概率信息。
例如,各个第一匹配组合方式及与其对应的第三匹配对如前述步骤S4212中的举例所示,则相似度确定装置分别将与各个第一匹配组合方式对应的第三匹配对中的匹配概率值相乘,获得第一匹配组合方式A的匹配概率值=0.75*0.25*0.25=0.046875,第一匹配组合方式B的匹配概率值=0.75*0.5*0.75=0.28125,第一匹配组合方式C的匹配概率值=0.25*0.25*0.75=0.046875。
接着,在步骤S4222中,相似度确定装置根据所述各第一匹配组合方式的匹配概率信息,获得所述相似度信息。
例如,各个第一匹配组合方式的匹配概率值如前述步骤S4221中的举例所示,相似度确定装置选择最高的匹配概率值作为第一及第二字符串信息间的相似度值。
又例如,各个第一匹配组合方式的匹配概率值如前述步骤S4221中的举例所示,相似度确定装置将最高的匹配概率值减去另两个匹配概率值,并将所得的值0.1875作为第一及第二字符串信息间的相似度值。
需要说明的是,作为本发明的优选方案之一,一个读音单元可匹配空字符串片段,即一个读音单元不匹配任何字符串片段;并且,一个字符串片段可匹配空读音单元,即一个字符串片段不匹配任何读音单元。为简洁起见,以下将上述两种匹配方式称为“空匹配”。则当存在空匹配时,所述第一匹配组合方式应相应拓展,例如,存在“K匹配クリ,R匹配空,M匹配一ム”的第一匹配组合方式等。相应的,预定读音匹配库中包含空匹配对,例如,包含匹配对“R_空_0.12”等。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由所述一个或多个第三匹配对中的匹配概率信息,获得各第一匹配组合方式的匹配概率信息,并根据所述各第一匹配组合方式的匹配概率信息,获得所述相似度信息的实现方式,例如,根据第三匹配对中的匹配概率等级来获得各第一匹配组合方式的匹配概率等级,以确定相似度等级,或者,将所对应的多个匹配概率值进行平方和、对数乘积等其他处理所得的值作为各个第一匹配组合方式的匹配概率值,并将各个第一匹配组合方式的匹配概率值进行除上例所示以外的其他处理所得的值作为第一及第二字符串信息间的相似度值等,均应包含在本发明的范围内。
作为本实施例的优选方案之一,根据本实施例的方法还步骤S3’(图未示),步骤S4进一步包括步骤S421’(图未示),步骤S422进一步包括步骤S422’(图未示)。
在步骤S3’中,相似度确定装置获取所述第二字符串信息的第二读音信息。相似度确定装置获取所述第二读音信息的方式与前述步骤S2中获取第一读音信息的方式相同或相似,在此不再赘述。
其中,第二读音信息包括至少一个第二读音单元,该第二读音单元为该第二读音信息所包含的一个独立单元;第一字符串信息包括至少一个第一字符串片段,该第一字符串片段为该第一字符串信息所包含的任意字符或任意多个相邻字符组合。
在步骤S421’中,相似度确定装置根据所述至少一个第二读音单元与所述至少一个第一字符串片段,在所述预定读音匹配库中进行查询,以获得至少一个第四匹配对,其中,所获得的每个第四匹配对包括所述至少一个第二读音单元之一与所述至少一个第一字符串片段之一。相似度确定装置获取所述至少一个第四匹配对的方式与前述步骤S421中获取至少一个第三匹配对的方式相同或相似,在此不再赘述。
接着,在步骤S422’中,相似度确定装置由在步骤S421中所获得的至少一个第三匹配对及第四匹配对中的匹配概率信息,来获得所述相似度信息。
具体地,相似度确定装置对所获得的至少一个第三匹配对及第四匹配对中的匹配概率信息进行处理,以获得所述相似度信息。相似度确定装置根据多个匹配概率信息来确定所述相似度信息的方式与步骤S422中相似度确定装置根据至少一个匹配概率信息来确定相似度信息的方式相同或相似,在此不再赘述。
作为本实施例的优选方案之一,根据本实施例的方法还包括步骤S3”(图未示)与步骤S4,其中,步骤S4进一步包括步骤S4211’(图未示),步骤S4212’(图未示)和步骤S4221’(图未示),步骤S4222进一步包括步骤S4222’(图未示)。
在步骤S3”中,相似度确定装置获取所述第二字符串信息的第二读音信息,其中,所述第二读音信息包括至少一个第二读音单元。其中,相似度确定装置获取第二读音信息的方式已在前述步骤S3’中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S4211’中,相似度确定装置获取所述至少一个第二读音单元及所述至少一个第一字符串片段间的所有第二匹配组合方式。其中,相似确定装置获取所有第二匹配组合方式的方式与步骤S4211中相似度确定装置获取所有第一匹配组合方式的方式相同或相似,在此不再赘述。
接着,在步骤S4212’中,相似度确定装置在所述预定读音信息库中进行查询,以获得分别与各第二匹配组合方式对应的一个或多个第四匹配对。其中,相似度确定装置获取一个或多个第四匹配对的方式与步骤S4212中相似度确定装置获取一个或多个第三匹配对的方式相同或相似,在此不再赘述。
接着,在步骤S4221’中,相似度确定装置由所述一个或多个第四匹配对中的匹配概率信息,获得各第二匹配组合方式的匹配概率信息。其中,相似度确定装置获取各第二匹配组合方式的匹配概率信息的方式与步骤S4221中相似度确定装置获取各第一匹配组合方式的匹配概率信息的方式相同或相似,在此不再赘述。
接着,在步骤S4222’中,相似度确定装置根据所述各第一匹配组合方式及各第二匹配方式的匹配概率信息,获得所述相似度信息。
具体地,相似度确定装置获得所述相似度信息的方式包括但不限于:
1)相似度确定装置根据各第一匹配组合方式的匹配概率信息获得第一初始配概率信息,并根据各第二匹配方式的匹配概率信息获得第二初始匹配概率信息;接着,相似度确定装置对该第一及第二初始匹配概率信息进行处理,来获得所述第一及第二字符串信息间的相似度信息。其中,相似度确定装置获取所述第一及第二初始匹配概率信息的方式与步骤S4222中相似度确定装置获取第一及第二字符串信息间的相似度信息的方式相同或相似,在此不再赘述。其中,对该第一及第二初始匹配概率信息所进行的处理包括:a)当初始匹配概率信息包括初始匹配概率值时,通过例如取平均值、平方和或对数和等处理来获得相似度信息;b)当初始匹配概率信息包括初始匹配概率等级时,通过例如取第一及第二初始匹配概率等级的平均等级或根据第一初始匹配概率等级来调整第二初始匹配概率等级等处理来获得相似度信息。
2)相似度确定装置直接根据各第一匹配组合方式及各第二匹配方式的匹配概率信息,获得所述相似度信息。其中,相似度确定装置直接根据各第一匹配组合方式及各第二匹配方式的匹配概率信息来获得所述相似度信息的方式与步骤S4222中相似度确定装置获取第一及第二字符串信息间的相似度信息的方式相同或相似,在此不再赘述。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述各第一匹配组合方式及各第二匹配方式的匹配概率信息,获得所述相似度信息的实现方式,均应包含在本发明的范围内。
根据本实施例的方法,能够根据读音信息中包含的读音单元与字符串信息中包含的字符串片段来确定两个字符串信息间的相似度信息,进一步提高了相似度判断的准确性。
图4为本发明另一个优选实施例的用于获取字符串间相似度的方法流程图。根据本实施例的方法包括步骤S1、步骤S2、步骤S431、步骤S432、步骤S433及步骤S434。
在本实施例中,预定读音匹配库中包括多个匹配对,每个匹配对包括预置读音单元、预置字符串片段及匹配概率信息,所述第一读音信息包括至少一个第一读音单元,所述第二字符串信息包括至少一个第二字符串片段。
步骤S1及步骤S2已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,在步骤S431中,相似度确定装置获取当前第一读音单元组合及当前第二字符串片段。
具体地,相似度确定装置根据各个第一读音单元在第一读音信息中的排序位置以及第二字符串信息中各个字符的排序位置,并结合已执行的获取当前第一读音单元组合及当前第二字符串片段的操作记录,来获取当前第一读音单元组合及当前第二字符串片段。
其中,所述操作记录包括但不限于以下至少一项:
1)已执行的获取操作次数;
2)已选择的第一读音单元组合及第二字符串片段;
3)已选择的第一读音单元组合所包含的读音单元数量及已选择的第二字符串片段所包含的字符数量。
例如,在步骤S1中,相似度确定装置获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,在步骤S2中,相似度确定装置获得第一读音信息“KRM”,并且,所述操作记录中包括前一次获取操作中所选择的当前第一读音单元组合及当前第二字符串片段分别为“KR”及“クリ一”,则相似度确定装置随机选择“KR”和“クリ一ム”,或者,“KRM”和“クリ一”来分别作为当前第一读音单元组合及当前第二字符串片段。
又例如,在步骤S1中,相似度确定装置获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,在步骤S2中,相似度确定装置获得第一读音信息“KRM”,并且,所述操作记录中包括已选择的第一读音单元组合所包含的读音单元数量为2及已选择的第二字符串片段所包含的字符数量为3的信息,且当前第二字符串片段的调整优先级高于当前第一读音单元组合,则相似度确定装置将“KR”和“クリ一ム”作为当前第一读音单元组合及当前第二字符串片段。
需要说明的是,相似度确定装置可通过按照多种次序选择当前第一读音单元组合及当前第二字符串片段;例如,当第一读音信息包括“KR”,第二字符串信息包括“クリ一”,则相似度确定装置以如下任一次序来选择当前第一读音单元组合及当前第二字符串片段:
1)“K_ク”、“K_クリ”、“K_クリ一”、“KR_ク”、“KR_クリ”、“KR_クリ一”;
2)“K_ク”、“KR_ク”、“K_クリ”、“KR_クリ”、“K_クリ一”、“KR_クリ一”;
3)“K_ク”、“K_クリ”、“KR_ク”、“K_クリ一”、“KR_クリ”、“KR_クリ一”;
4)“R_一”、“R_リ一”、“R_クリ一”、“KR_一”、“KR_リ一”、“KR_クリ一”;
5)“R_一”、“KR_一”、“R_リ一”、“KR_リ一”、“R_クリ一”、“KR_クリ一”;
6)“R_一”、“KR_一”、“R_リ一”、“KR_リ一”、“R_クリ一”、“KR_クリ一”。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取当前第一读音单元组合及当前第二字符串片段的实现方式,均应包含在本发明的范围内。
接着,在步骤S432中,相似度确定装置根据基于所述当前第一读音单元组合与所述当前第二字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的第一当前概率信息,其中,所获得的每个匹配对包括所述当前第二读音单元组合中的全部或部分读音单元以及所述当前第二字符串片段中的全部或部分字符。
具体地,相似度确定装置获得第一当前概率信息的方式包括但不限于:
1)相似度确定装置根据基于当前第一读音单元组合中的预定第一读音单元及当前第二字符串片段来在预定读音匹配库中查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的一个或多个临时概率信息,以根据该一个或多个临时概率信息获得第一当前概率信息。
例如,预定第一读音单元为当前第一读音单元组合中的最后一个第一读音单元,且第一历史概率信息包括:
K_ク_0.75;
K_クリ_0.25;
K_クリ一_0;
K_クリ一ム_0;
KR_ク_0;
KR_クリ_0.1875;
预定读音匹配库中包括如下匹配对:
K_ク_0.75;
K_クリ_0.25;
R_リ_0.25;
R_リ一_0.5;
R_一_0.25;
M_ム_0.75;
M_一ム_0.25。
在前述步骤S431中,相似度确定装置获得当前第一读音单元组合“KR”及当前第二字符串片段“クリ一”,则相似度确定装置先根据预定第一读音单元“R”及第二字符串片段“一”在预定读音匹配库中查询并获得匹配对“R_一_0.25”,并结合第一历史概率信息中包含的历史概率记录“K_クリ_0.25”,获得当“R”匹配“一”且“K”匹配“クリ”时的临时概率信息0.0625;接着,相似度确定装置根据预定第一读音单元“R”及第二字符串片段“リ一”在预定读音匹配库中查询获得匹配对“R_リ一_0.75”,并结合第一历史概率信息中包含的历史概率记录“K_ク_0.75”,获得当“R”匹配“リ一”且“K”匹配“ク”时的临时概率信息0.5625;接着,相似度确定装置选择最高的临时概率信息0.5625作为当前第一读音单元组合“KR”与当前第二字符串片段间“クリ一”的第一当前概率信息。
2)相似度确定装置根据基于当前第二字符串片段中的预定字符及当前第一读音单元组合来在预定读音匹配库中查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的一个或多个临时概率信息,以根据该一个或多个临时概率信息获得第一当前概率信息。
例如,预定字符为当前第二字符串片段中的第一个字符,且第一历史概率信息包括:
M_ム_0.75;
RM_ム_0;
KRM_ム_0;
M_一ム_0.25;
预定读音匹配库中包括如下匹配对:
K_ク_0.75;
K_クリ_0.25;
R_リ_0.25;
R_リ一_0.5;
R_一_0.25;
M_ム_0.75;
M_一ム_0.25。
在前述步骤S431中,相似度确定装置获得当前第一读音单元组合“RM”及当前第二字符串片段“一ム”,则相似度确定装置先根据预定字符“一”及第一读音单元“R”在预定读音匹配库中查询并获得匹配对“R_一_0.25”,并结合第一历史概率信息中包含的历史概率记录“M_ム_0.75”,获得当“R”匹配“一”且“M”匹配“ム”时的临时概率信息0.1875;接着,相似度确定装置将该临时概率信息0.1875作为当前第一读音单元组合“RM”与当前第二字符串片段间“一ム”的第一当前概率信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据基于所述当前第一读音单元组合与所述当前第二字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的第一当前概率信息的实现方式,例如,匹配关系中包括空匹配且预定读音匹配库中包含空匹配对,或者,当获得多个临时概率信息时,对该多个临时概率信息进行取平均值、对数和等操作来获得第一当前概率信息等,均应包含在本发明的范围内。
接着,该步骤S433中,相似度确定装置将所述第一当前概率信息作为所述第一历史概率信息之一,以重复步骤S431至S432以及前述将所述第一当前概率信息作为所述第一历史概率信息之一的步骤,直至所述当前第一读音单元组合与所述第一读音信息相同且所述当前第二字符串片段与所述第二字符串信息相同。
例如,对于第一读音信息“KRM”及第二字符串信息“クリ一ム”,相似度确定装置重复执行步骤S431及步骤S432,并在每次执行步骤S432后将所得的第一当前概率信息作为第一历史概率信息之一,以逐次获得“K_ク”、“K_クリ”、“K_クリ一”、“K_クリ一ム”、“KR_ク”、“KR_クリ”、“KR_クリ一”、“KR_クリ一ム”、“KRM_ク”、“KRM_クリ”、“KRM_クリ一”直至“KRM_クリ一ム”的概率信息。
接着,在步骤S434中,相似度确定装置根据所获得的第一当前概率信息,获得所述相似度信息。
例如,相似度确定装置直接将最后所获得的第一当前概率信息作为第一及第二字符串信息间的相似度信息;又例如,相似度确定装置将最后所获得的第一当前概率信息进行归一化或取整等处理后,将所得的值作为第一及第二字符串信息间的相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所获得的第一当前概率信息,获得所述相似度信息的实现方式,均应包含在本发明的范围内。
作为本实施例的优选方案之一,根据本实施例的方法还包括步骤S3”’,步骤S4进一步包括步骤S431’(图未示)、步骤S432’(图未示)及步骤S433’(图未示),步骤S434进一步包括步骤S434’(图未示)。
在步骤S3”’中,相似度确定装置获取所述第二字符串信息的第二读音信息。其中,相似度确定装置获取第二读音信息的方式已在前述步骤S3’中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S431’中,相似度确定装置获取当前第二读音单元组合及当前第一字符串片段。其中,相似确定装置获取当前第二读音单元组合及当前第一字符串片段的方式与步骤S431中相似度确定装置获取当前第一读音单元组合及当前第二字符串片段的方式相同或相似,在此不再赘述。
接着,在步骤S432’中,相似度确定装置根据基于所述当前第二读音单元组合与所述当前第一字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第二历史概率信息,获得所述当前第二读音单元组合与所述当前第一字符串片段间的第二当前概率信息,其中,所获得的每个匹配对包括所述当前第二读音单元组合中的全部或部分读音单元以及所述当前第二字符串片段中的全部或部分字符。其中,相似度确定装置获取所述第二当前概率信息的方式与在步骤S432中获取第一当前概率信息的方式相同或相似,在此不再赘述。
接着,在步骤S433’中,相似度确定装置将所述第二当前概率信息作为所述第二历史概率信息之一,来重复步骤S431’至步骤S432’以及前述将所述第二当前概率信息作为所述第二历史概率信息之一的步骤,直至所述第二读音单元组合与所述第二读音信息相同且所述当前第一字符串片段与所述第一字符串信息相同。
在步骤S434’中,相似度确定装置根据前述步骤S432中所获得的第一当前概率信息及所述第二当前概率信息,获得所述相似度信息。
具体地,相似度确定装置根据所述第一及第二当前概率信息来获得所述相似度信息的方式包括但不限于:
1)相似度确定装置由第一及第二当前概率信息中选择较高的概率信息作为第一及第二字符串信息间的相似度信息;
2)相似度确定装置由第一及第二当前概率信息中选择较高的概率信息,并对所选择的概率信息进行相应处理,例如,归一化或取整,来将所得的值作为第一及第二字符串信息间的相似度信息;
3)相似度确定装置对第一及第二当前概率信息进行相应处理,例如,对第一及第二当前概率信息进行取平均值、对数和、平方和、乘积等,来将所得的值作为第一及第二字符串信息间的相似度信息。
根据本实施例的方法,通过结合历史概率信息,能够大幅减少相似度确定装置的资源消耗,更快获得两个字符串信息间的相似度信息。
图5为本发明一个优选实施例的用于建立或更新预定读音匹配库的方法流程图。根据本实施例的方法包括步骤S8及步骤S9。
在步骤S8中,相似度确定装置获取一个或多个训练匹配对,其中,每个训练匹配对包括读音训练单元、字符串训练片段及训练概率信息。
具体地,相似度确定装置获取一个或多个训练匹配对的方式包括但不限于:
1)相似度确定装置获取其他设备提供的一个或多个训练匹配对;
2)相似度确定装置获取其预存储的一个或多个训练匹配对;
3)相似度确定装置通过执行下述步骤S81(图未示)、步骤S82(图未示)、步骤S83(图未示)及步骤S84(图未示)来获取一个或多个训练匹配对。
在步骤S81中,相似度确定装置获取多个训练对,其中,每个训练对信息均包括读音训练信息与字符串训练信息,所述读音训练信息包括至少一个读音训练单元,所述字符串训练信息包括至少一个字符串训练片段。
具体地,相似度确定装置获取多个训练对的方式包括但不限于:
1)相似度确定装置获取其他设备提供的多个训练对;
2)相似度确定装置获取其预存储的多个训练对;
3)相似度确定装置获取多个待匹配的字符串对,对于每个字符串对,相似度确定装置获取其中一个字符串的读音信息来作为读音训练信息,并将该字符串对中的另一个字符串作为字符串训练信息,以获得训练对。
接着,在步骤S82中,相似度确定装置确定每个训练对中的读音训练信息与字符串训练信息间的所有训练匹配方式。
其中,相似度确定装置获取训练匹配方式的方式与相似度确定装置获取前述第一或第二匹配组合方式的方式相同或相似,在此不再赘述。
接着,在步骤S83中,相似度确定装置根据所述所有训练匹配方式,获得所述读音训练单元与所述字符串训练片段间的各匹配关系及各匹配关系在所有训练匹配方式中出现的次数。
例如,在步骤S81中,相似度确定装置获得两个训练对“KRM_クリ一ム”及“KR_クリ一”,在步骤S82中,相似度确定装置获得训练对“KRM_クリ一ム”的所有训练匹配方式如下所示:
Figure GDA00002809022500261
训练对“KR_クリ一”的所有训练匹配方式如下所示:
则相似度确定装置统计获得读音训练单元与字符串训练片段间的各匹配关系及各匹配关系在所有训练匹配方式中出现的次数如下所示:
K_ク_3;
K_クリ_2;
R_リ_1;
R_リ一_2;
R_一_2;
M_ム_2;
M_一ム_1。
接着,在步骤S84中,相似度确定装置根据各匹配关系出现的次数,分别获得各匹配关系的概率信息,以获得所述一个或多个训练匹配对。
例如,对于每个匹配关系,相似度确定装置将其包含的读音单元作为读音训练单元,将其包含的字符串片段作为字符串训练片段,并对其对应的出现次数进行归一化后所得的值作为训练概率信息,来获得一个训练匹配对。相似度确定装置对各个匹配关系及各匹配关系对应的出现次数均执行上述操作,以获得多个训练匹配对。
又例如,对于每个匹配关系,相似度确定装置将其包含的读音单元作为读音训练单元,将其包含的字符串片段作为字符串训练片段,并根据其对应的出现次数所属的预定阈值范围来获得相应的等级,并将所获得的等级作为训练概率信息,来获得一个训练匹配对。相似度确定装置对各个匹配关系及各匹配关系对应的出现次数均执行上述操作,以获得多个训练匹配对。
需要说明的是,当本实施例中包括空匹配,则训练匹配方式应相应拓展,例如,还包括“K匹配クリ,R匹配空,M匹配一ム”等训练匹配方式。并且,匹配关系应相应拓展,例如,还包括“R匹配空”等匹配关系。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据各匹配关系出现的次数,分别获得各匹配关系的概率信息,以获得所述一个或多个训练匹配对的实现方式,例如,直接将出现次数作为训练概率信息等,均应包含在本发明的范围内。
接着,在步骤S9中,相似度确定装置根据所述训练匹配对,更新或建立所述预定读音匹配库。
例如,当预定读音匹配库中的任一匹配对均未同时包含一个训练匹配对中的读音训练单元及字符串训练片段时,相似度确定装置将该训练匹配对中的读音训练单元作为预置读音单元,将该训练匹配对中的字符串训练片段作为预置字符串片段,并将该训练匹配对中的训练概率信息作为匹配概率信息,在预定读音匹配库中建立一个新的匹配对。
又例如,当预定读音匹配库中的一个匹配对同时包含一个训练匹配对中的读音训练单元及字符串训练片段时,相似度确定装置根据该训练匹配对的训练概率信息来更新该预定读音匹配库中的匹配对的匹配概率信息。
作为本实施例的优选方案之一,步骤S84进一步包括步骤S841(图未示)、步骤S842(图未示)、步骤S843(图未示)及步骤S844(图未示)。
在步骤S841中,相似度确定装置根据所述次数,确定各匹配关系的概率信息。
例如,相似度确定装置直接将各匹配关系在所有训练匹配方式中出现的次数作为各匹配关系的概率信息;又例如,相似度确定装置将各匹配关系在所有训练匹配方式中出现的次数乘以预定调节值后,将所得的各个积作为各匹配关系的概率信息等;再例如,相似度确定装置将各个次数进行归一化处理后所得的值作为各匹配关系的概率信息等。
接着,在步骤S842中,相似度确定装置根据各匹配关系的概率信息,建立或更新所有训练匹配方式的权重值。
具体地,相似度确定装置根据各匹配关系的概率信息及各训练匹配方式包含的匹配关系,确定或更新各训练匹配方式的概率信息,以获得所有训练匹配方式的权重值。
例如,在步骤S82中,相似度确定装置获得前述训练匹配方式A1、A2、A3、B1及B2。在步骤S841中,相似度确定装置对各个次数进行归一化处理后获得各匹配关系的概率信息如下所示:
K_ク_3/5;
K_クリ_2/5;
R_リ_1/5;
R_リ一_2/5;
R_一_2/5;
M_ム_2/3;
M_一ム_1/3。
则相似度确定装置根据各匹配关系的概率信息,获得各训练匹配方式的概率信息如下所示:
训练匹配方式A1的概率信息=(3/5)*(1/5)*(1/3)=3/75;
训练匹配方式A2的概率信息=(3/5)*(2/5)*(2/3)=12/75;
训练匹配方式A3的概率信息=(2/5)*(2/5)*(2/3)=8/75;
训练匹配方式B1的概率信息=(3/5)*(2/5)=6/25;
训练匹配方式B2的概率信息=(2/5)*(2/5)=4/25。
相似度确定装置对各个训练匹配方式的概率信息进行归一化后,获得各个训练匹配方式的权重值如下所示:
训练匹配方式A1的权重值=3/53;
训练匹配方式A2的权重值=12/53;
训练匹配方式A3的权重值=8/53;
训练匹配方式B1的权重值=18/53;
训练匹配方式B2的权重值=12/53。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据各匹配关系的概率信息,建立或更新所有训练匹配方式的权重值的实现方式,例如,将一个训练匹配方式所包含的各个匹配关系的概率信息之和作为该训练匹配方式的概率信息,或者,直接将概率信息作为权重值等,均应包含在本发明的范围内。
接着,在步骤S843中,相似度确定装置根据所述所有训练匹配方式的权重值及各训练匹配方式包含的匹配关系,更新所述各匹配关系的概率信息。
例如,所有训练匹配方式的权重值及各训练匹配方式包含的匹配关系如前述步骤S842中所示,则相似度确定装置将一个匹配关系所在的所有训练匹配方式的权重值之和作为该匹配关系更新后的概率信息,以获得各个匹配关系更新后的概率信息如下所示:
匹配关系“K_ク”更新后的概率信息=3/75+12/75+6/25=33/75;
匹配关系“K_クリ”更新后的概率信息=8/75+4/25=20/75;
匹配关系“R_リ”更新后的概率信息=3/75;
匹配关系“R_リ一”更新后的概率信息=12/75+6/25=30/75;
匹配关系“R_一”更新后的概率信息=8/75+4/25=20/75;
匹配关系“M_ム”更新后的概率信息=12/75+8/75=20/75;
匹配关系“M_一ム”更新后的概率信息=3/75。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述所有训练匹配方式的权重值及各训练匹配方式包含的匹配关系,更新所述各匹配关系的概率信息的实现方式,例如,将所获得的一个匹配关系所在的所有训练匹配方式的权重值之和进行归一化处理后,作为该匹配关系更新后的概率信息,又例如,将一个匹配关系所在的所有训练匹配方式的权重值对数和作为该匹配关系更新后的概率信息,再例如,当存在空匹配时,相应获得空匹配关系的概率信息等,均应包含在本发明的范围内。
接着,相似度确定装置重复步骤S842至步骤S843直至重复次数达到预定阈值。则相似度确定装置根据最后一次执行步骤S843所得的各匹配关系的概率信息来获得所述一个或多个训练匹配对。
根据本实施例的方法,能够根据所获得的训练匹配对来建立或更新预定读音匹配库;优选地,根据本实施例的方法,能够通过统计大量训练匹配方式中各个匹配关系出现的次数,并对该出现的次数进行多轮处理,较准确地获得各种匹配关系的出现概率。
需要说明的是,为简洁起见,本发明所述实施例中均以日文片假名及英文举例,但本领域技术人员应该理解,根据本发明的方式适用于获取任何属于同种或不同语言间的两个字符串信息间的相似度信息。
图6为本发明另一个方面的用于获取字符串间相似度的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第一获取装置1、第二获取装置2及第一确定装置4。
第一获取装置1获取第一字符串信息及第二字符串信息。优选地,该第一字符串信息及第二字符串信息分别属于两种语言。
其中,第一获取装置1获取所述第一字符串信息及第二字符串信息的方式包括但不限于:
1)获取预存储的需要进行相似度判断的第一字符串信息及第二字符串信息;
2)获取第一获取装置1所属计算机设备或其他计算机设备当前需要进行相似度判断处理的第一字符串信息及第二字符串信息。
例如,第一字符串信息来自用户当前输入的输入序列,第二字符串信息来自计算机设备根据第一字符串信息来进行检索的文本信息,第一获取装置1所属计算机设备或其他计算机设备当前需要判断第一字符串信息与第二字符串信息间的相似度以确定是否将该文本信息所属资源提供给用户,则第一获取装置1获取其所属计算机设备或其他计算机设备提供的第一字符串信息及第二字符串信息。
又例如,第二字符串信息来自用户在应用程序中输入的输入序列,第一字符串信息来自该应用程序所属计算机设备的纠错词库,该应用程序所属计算机设备当前需要判断第一字符串信息与第二字符串信息间的相似度以确定是否将第一字符串信息作为纠错提示信息提供给用户,则第一获取装置1获取该应用程序所属计算机设备提供的第一字符串信息及第二字符串信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取第一字符串信息及第二字符串信息的实现方式,均应包含在本发明的范围内。
接着,第二获取装置2获取所述第一字符串信息的第一读音信息。
其中,所述第一读音信息包括但不限于:1)该第一字符串信息的注音信息,例如,第一字符串信息“cream”的读音信息包括其Metaphone注音信息“KRM”等;2)由该第一字符串信息划分出的字符串片段,例如,第一字符串信息“cream”的读音信息包括“c”、“r”、“ea”及“m”。
其中,第二获取装置2获取所述第一读音信息的方式包括但不限于:
1)第二获取装置2获取预设的该第一字符串信息的第一读音信息;
2)第二获取装置2进一步包括第一子获取装置(图未示),该第一子获取装置根据预定的注音规则,对所述第一字符串信息进行注音,以获得所述第一读音信息。
其中,所述注音规则包括现有技术所提供的所有注音方式,包括但不限于:Metaphone、IPA(intemational phonetic alphabet)、拼音、音标等。
例如,第一子获取装置根据Metaphone注音规则,对第一字符串信息进行注音,获得第一读音信息“KRM”。
3)第二获取装置2进一步包括第二子获取装置(图未示),该第二子获取装置根据预置字符读音组合信息,对所述至第一字符串信息进行划分,以将划分后的字符串片段作为第一读音信息。其中,所述预置字符读音组合信息包括多个字符读音组合。
具体地,第二子获取装置根据所述第一字符串信息在所述预置字符读音组合信息中进行查询,以获得包含于第一字符串信息中的一个或多个字符读音组合,并根据所获得的多个字符读音组合来将第一字符串信息划分为多个的字符串片段,以将该多个字符串片段作为第一读音信息。
例如,第二子获取装置根据第一字符串信息“cream”来在预置字符读音组合信息中进行查询,获得字符读音组合“c”、字符读音组合“rea”及字符读音组合“m”,则第二子获取装置将第一字符串信息“cream”划分为“c/rea/m”,以获得“c_rea_m”作为第一读音信息。
又例如,第二子获取装置根据第一字符串信息“cream”来在预置字符读音组合信息中进行查询,获得字符读音组合“c”、字符读音组合“r”、字符读音组合“e”、字符读音组合“a”、字符读音组合“ea”、字符读音组合“re”、字符读音组合“rea”及字符读音组合“m”,则相似度确定装置由多种划分方式中选择划分后所包含字符读音组合数量最少的划分方式“c/rea/m”,以获得“c_rea_m”作为第一读音信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据预置字符读音组合信息,对所述至第一字符串信息进行划分,以将划分后的字符串片段作为第一读音信息的实现方式,均应包含在本发明的范围内。
接着,第一确定装置4基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息。其中,所述相似度信息包括但不限于以下至少一项:1)相似度等级;2)相似度值等。
例如,第一获取装置1获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,并且,第二获取装置2获得第一读音信息“KRM;第一确定装置4在预定读音匹配库中查询获得第一读音信息“KRM”与第二字符串信息“クリ一ム”间的匹配概率为第二等级,则第一确定装置4确定第一及第二字符串信息间的相似度等级为第二等级。
又例如,第一获取装置1获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,并且,第二获取装置2获得第一读音信息“KRM;第一确定装置4在预定读音匹配库中查询获得“K”与“ク”的匹配概率为0.4,“R”与“リ一”的匹配概率为0.8,“M”与“ム”的匹配概率为0.5,则第一确定装置4确定第一及第二字符串信息间的相似度值=0.4*0.8*0.5=0.16。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息的实现方式,均应包含在本发明的范围内。
作为本发明的优选方案之一,根据本发明的相似度确定装置还包括第三获取装置(图未示),第一确定装置4进一步包括第二子确定装置(图未示)。
第三获取装置获取所述第二字符串信息的第二读音信息。其中,第三获取装置获取第二读音信息的方式与前述第二获取装置2获取第一读音信息的方式相同或相似,在此不再赘述。
第二子确定装置基于所述预定读音匹配库,根据所述第一字符串信息及所述第二读音信息,并结合所述第二字符串信息及所述第一读音信息,确定所述第一及第二字符串信息间的相似度信息。
具体地,第二子确定装置基于所述预定读音匹配库,获得分别和所述第二字符串信息与所述第一读音信息以及所述第一字符串信息与所述第二读音信息相关的匹配概率;接着,第二子确定装置根据所获得匹配概率,确定所述第一及第二字符串信息间的相似度信息。其中,相似度确定装置获取第二字符串信息与第一读音信息间的匹配概率的方式已在前述第一确定装置4中予以详述,且第二子确定装置获取第一字符串信息与第二读音信息间的匹配概率的方式和第一确定装置4获取第二字符串信息与第一读音信息间的匹配概率的方式相同或相似,在此不再赘述。
例如,第一获取装置1获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,并且,第二获取装置2获得第一读音信息“KRM”,第三获取装置3获得第二读音信息“ku_ri-_mu”;第二子确定装置在预定读音匹配库中查询获得“K”与“ク”的匹配概率为0.4,“R”与“リ一”的匹配概率为0.8,“M”与“ム”的匹配概率为0.5,并获得“ku_ri-_mu”与“cream”的匹配概率为0.45,则第二子确定装置确定第一及第二字符串信息间的相似度值=(0.45+0.4*0.8*0.5/2=0.305。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述预定读音匹配库,根据所述第一字符串信息及所述第二读音信息,并结合所述第二字符串信息及所述第一读音信息,确定所述第一及第二字符串信息间的相似度信息的实现方式,例如,选择高于0.4*0.8*0.5=0.16的值0.45来作为第一及第二字符串信息间的相似度信息,又例如,确定第一及第二字符串信息间的相似度信息=0.452+(0.4*0.8*0.5)2=0.2281等,均应包含在本发明的范围内。
作为本发明的优选方案之一,根据本发明的相似度确定装置还包括转换装置(图未示)、判断装置(图未示)、第二确定装置(图未示)及第二获取装置2。在本实施例中,第一字符串信息及第二字符串信息分别属于两种语言。
转换装置根据预定的转换规则,将所述第一及第二字符串信息中的一个转换为目标字符串信息,其中,所述目标字符串信息所属语言与另一个字符串信息所属语言相同。
其中,所述预定的转换规则包括将一个字符串信息转换为目标字符串信息的转换方式。优选地,该转换规则中还包括根据第一及第二字符串信息所属类型中来确定待转换字符串信息的规则。
例如,若第一获取装置1获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,且转换规则中预设将第一字符串信息转换为日语片假名,则转换装置将第一字符串信息转换为目标字符串信息“クレアム”。
又例如,若第一获取装置1获得第一字符串信息“kurimu”及第二字符串信息“クリム”,且转换规则中预设将asc串转换为日语片假名;转换装置分析第一及第二字符串信息,判断第一字符串信息为acs串,则转换装置将第一字符串信息转换为目标字符串信息“クリム”。
需要说明的是,本领域技术人员应可根据实际情况和需求确定将将一个字符串信息转换为目标字符串信息的转换方式,在此不再赘述。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据预定的转换规则,将所述第一及第二字符串信息中的一个转换为目标字符串信息的实现方式,均应包含在本发明的范围内。
判断装置判断所述目标语言字符串信息是否与另一个字符串信息相同。
当判断所述目标语言字符串信息与另一个字符串信息相同时,第二确定装置确定所述两个字符串信息间的相似度信息为最高相似度信息。
例如,判断装置判断转换装置中获得的目标字符串信息“クリム”与第二字符串信息“クリム”相同,则第二确定装置确定第一及第二字符串信息间的相似度等级为最高等级,或者,第二确定装置确定第一及第二字符串信息间的相似度值为最高值。
当判断所述目标语言字符串信息与另一个字符串信息不同时,第二获取装置2获取所述第一字符串信息的第一读音信息。
具体地,当判断所述目标语言字符串信息与另一个字符串信息不同时,第二获取装置2获取所述第一字符串信息的第一读音信息,以执行后续操作。
根据本发明的方法,通过将两个字符串信息中一者的读音信息与另一个字符串信息进行比较来确定两个字符串信息间的相似度信息。因此,根据本发明的方法不仅能够较好地判断属于同种语言的两个字符串信息间的相似度,还能够较好地判断分别属于不同语言的两个字符串信息间,特别是外来语与该外来语的来源语言,例如,日语片假名字符串与英文串,之间的相似度。
图7为本发明一个优选实施例的用于获取字符串间相似度的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第一获取装置1、第二获取装置2及包含于第一确定装置4中的第一查询装置411及第一子确定装置412。
第一获取装置1及第二获取装置2已在参照图6所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,第一查询装置411根据第一读音信息与第二字符串信息,在所述预定读音匹配库中进行匹配查询,以获得包含所述第一读音信息及所述第二字符串信息的第一匹配对,并从其中获取相应的第一匹配概率信息。其中,预定读音匹配库包括多个匹配对,每个匹配对包括预置读音信息、预置字符串信息及匹配概率信息。其中,匹配概率信息包括但不限于以下至少一项:1)匹配概率等级;2)匹配概率值等。
例如,第一获取装置1获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,并且,第二获取装置2获得第一读音信息“KRM”;第一查询装置411根据“クリ一ム”及“KRM”在预定读音匹配库的多个匹配对中进行查询,并获得包含“クリ一ム”及“KRM”的第一匹配对““KRM_クリ一ム_12.5”,则第一查询装置411由第一匹配对中获得第一读音信息及第二字符串信息间的第一匹配概率信息包括第一匹配概率值12.5。
需要说明的是,当未获得包含所述第一读音信息及所述第二字符串信息的第一匹配对时,确定第一匹配概率信息为最低等级或最小值。
接着,第一子确定装置412根据所获取的第一匹配概率信息来确定所述第一读音信息与第二字符串信息的相似度信息。
例如,第一子确定装置412直接将第一查询装置411所获得的第一匹配概率值作为所述第一读音信息与第二字符串信息的相似度信息。
又例如,第一子确定装置412将第一查询装置411所获得的第一匹配概率值进行归一化处理后所得的值0.125作为所述第一读音信息与第二字符串信息的相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据第一读音信息与第二字符串信息,在所述预定读音匹配库中进行匹配查询,以获得包含所述第一读音信息及所述第二字符串信息的第一匹配对,并从其中获取相应的第一匹配概率信息,以根据所获取的第一匹配概率信息来确定所述第一读音信息与第二字符串信息的相似度信息的实现方式,例如,将由第一匹配对中所获得的第一匹配概率等级作为第一读音信息与第二字符串信息的相似度等级,又例如,将由第一匹配对中所获得的第一匹配概率等级进行降级或升级调整后,作为第一读音信息与第二字符串信息的相似度等级等,均应包含在本发明的范围内。
作为本发明的优选方案之一,根据本实施例的相似度确定装置还包括第三获取装置(图未示),第一确定装置4还包括第二查询装置(图未示),第一子确定装置412进一步包括第三子确定装置(图未示)。其中,第三获取装置已在前述实施例中予以详述,在此不再赘述。
第二查询装置根据所述第一读音信息与所述第二字符串信息在所述预定读音匹配库中查询,以获得所述第一匹配对,并根据所述第二读音信息与所述第一字符串信息在所述预定读音匹配库中进行查询,以获得包括所述第二读音信息与第一字符串信息的第二匹配对。
其中,相似度确定装置根据所述第一读音信息与所述第二字符串信息获得所述第一匹配对的实现方式已在前述第一查询装置411中予以详述,在此不再赘述;第二查询装置根据所述第二读音信息与所述第一字符串信息获得所述第二匹配对的实现方式与前述获得第一匹配对的实现方式相同或相似,在此不再赘述。
接着,第三子确定装置由在前述第一查询装置411中所获得的所述第一匹配对中的第一匹配概率信息和所述第二匹配对中的第二匹配概率信息,来确定所述相似度信息。
例如,第三子确定装置由第一匹配对中获得第一读音信息与第二字符串信息间的第一匹配概率等级为第一等级,第二读音信息与第一字符串信息间的第二匹配概率等级为第三等级,则第三子确定装置确定第一及第二字符串信息间的相似度等级为第二等级。
又例如,第三子确定装置由第一匹配对中获得第一读音信息与第二字符串信息间的第一匹配概率值为12.5,第二读音信息与第一字符串信息间的第二匹配概率值为14.6,则第三子确定装置确定第一及第二字符串信息间的相似度值=(12.5+14.6)/2=13.55。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由所述第一匹配对中的第一匹配概率信息与第二匹配对中的第二匹配概率信息,来确定所述相似度信息的实现方式,例如,根据第二匹配概率等级来调整第一匹配概率等级,又例如,通过将第一匹配概率值及第二匹配概率值进行平方和、对数乘积等其他处理所得的值作为第一及第二字符串信息间的相似度值等,均应包含在本发明的范围内。
图8为本发明另一优选实施例的用于获取字符串间相似度的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第一获取装置1、第二获取装置2及包含于第一确定装置4中的第三查询装置421及第四子确定装置422。
第一获取装置1及第二获取装置2已在参照图6所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
本实施例中,预定读音匹配库中包括多个匹配对,每个匹配对包括预置读音单元、预置字符串片段及匹配概率信息。第一读音信息包括至少一个第一读音单元,所述第二字符串信息包括至少一个第二字符串片段;其中,所述第一读音单元为该第一读音信息所包含的一个独立单元,例如,当第一读音信息为“KRM”时,其包含三个第一读音单元“K”、“R”及“M”,当第一读音信息为“c_rea_m”时,其包含三个读音单元“c”、“rea”及“m”;所述第二字符串片段为该第二字符串信息所包含的任意字符或任意多个相邻字符组合,例如,当第二字符串信息为“クリ一ム”时,其所包含的字符串片段包括“ク”、“クリ”、“クリ一”、“クリ一ム”、“リ”、“リ一”、“リ一ム”、“一”、“一ム”及“ム”。
接着,第三查询装置421根据所述至少一个第一读音单元与所述至少一个第二字符串片段,在所述预定读音匹配库中进行查询,以获得至少一个第三匹配对,其中,所获得的每个第三匹配对包括所述至少一个第一读音单元之一与所述至少一个第二字符串片段之一。
例如,第一获取装置1获得第二字符串片段“クリ一ム”,第二获取装置2获得第一读音信息“KRM”;则第三查询装置421根据第二字符串片段“クリ一ム”及第一读音信息“KRM”在预定读音匹配库中进行查询,并获得包含一个第一读音单元及一个第二字符串片段的多个第三匹配对“K_ク_0.75”、“K_クリ_0.25”、“R_リ_0.25”、“R_リ一_0.5”、“R_一_0.25”、“M_ム_0.75”、“M_一ム_0.25”。
接着,第四子确定装置422由所获得的至少一个第三匹配对中的匹配概率信息,来获得所述相似度信息。
具体地,第四子确定装置422对所获得的至少一个第三匹配对中的匹配概率信息进行处理,以获得所述相似度信息。其中,所述匹配概率信息包括以下至少一项:1)匹配概率等级;2)匹配概率值。
例如,第三查询装置421获得第三匹配对“K_ク_0.75”、“K_クリ_0.25”、“R_リ_0.25”、“R_リ一_0.5”、“R_一_0.25”、“M_ム_0.75”及“M_一ム_0.25”,则第四子确定装置422由该多个第三匹配对中获取匹配概率值,对所获得的匹配概率值由高至低进行排序,并将排序前三位的匹配概率值相乘以获得第一及第二字符串间的相似度信息=0.75*0.5*0.75=0.28125。
又例如,第三查询装置421获得第三匹配对“K_ク_第一等级”、“K_クリ_第三等级、“R_リ_第三等级”、“R_リ一_第二等级”、“R_一_第三等级”、“M_ム_第一等级”及“M_一ム_第三等级”;第四子确定装置422由该多个第三匹配对中获取匹配概率等级,并统计获得第一等级数量为2,第二等级数量为1,第三等级数量为4,则第四子确定装置422根据第一等级数量<第一读音单元数量,且(第一等级数量+第二等级数量)≥第一读音单元数量,确定第一及第二字符串间的相似度等级为第二等级。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所获得的多个第三匹配对中的匹配概率信息进行处理,以获得所述相似度信息的实现方式,例如,根据各个匹配概率等级的数量占所有匹配概率等级数量的比例来确定相似度等级,又例如,通过将所获得的多个匹配概率值进行平方和、对数乘积等其他处理所得的值作为第一及第二字符串信息间的相似度值等,均应包含在本发明的范围内。
作为本实施例的优选方案之一,前述第三查询装置421进一步包括第一匹配确定装置(图未示)及第一子查询装置(图未示),前述第四子确定装置422进一步包括第一概率确定装置(图未示)及第二相似确定装置(图未示)。
第一匹配确定装置获取所述至少一个第一读音单元及所述至少一个第二字符串片段间的所有第一匹配组合方式。
例如,对于第一读音信息“KRM”及第二字符串信息“クリ一ム”,相似度确定装置获得以下三个第一匹配组合方式:
Figure GDA00002809022500411
接着,第一子查询装置在所述预定读音信息库中进行查询,以获得分别与各第一匹配组合方式对应的一个或多个第三匹配对。
具体地,第一子查询装置在预定读音信息库中查询各个第一匹配组合方式中所包含的相匹配的第一读音单元及第二字符串片段,以获得包含相匹配的第一读音单元及第二字符串片段的至少一个第三匹配对。
例如,第一子查询装置在预定读音信息库中查询,并将查询所得的分别包含“K”与“ク”、“R”与“リ”、“M”与“一ム”的第三匹配对“K_ク_0.75”、“R_リ_0.25”以及“M_一ム_0.25”作为与第一匹配组合方式A对应的第三匹配对;同样的,第一子查询装置获得与第一匹配组合方式B对应的第三匹配对“K_ク_0.75”、“R_リ一_0.5”和“M_ム_0.75”,以及与第一匹配组合方式C对应的第三匹配对“K_クリ_0.25”、“R_一_0.25”和“M_ム_0.75”。
接着,第一概率确定装置由所述一个或多个第三匹配对中的匹配概率信息,获得各第一匹配组合方式的匹配概率信息。
具体地,对于每一个第一匹配组合方式,第一概率确定装置根据与其对应的一个或多个第三匹配对中的匹配概率信息,来获得该第一匹配组合方式的匹配概率信息。
例如,各个第一匹配组合方式及与其对应的第三匹配对如前述第一子查询装置中的举例所示,则第一概率确定装置分别将与各个第一匹配组合方式对应的第三匹配对中的匹配概率值相乘,获得第一匹配组合方式A的匹配概率值=0.75*0.25*0.25=0.046875,第一匹配组合方式B的匹配概率值=0.75*0.5*0.75=0.28125,第一匹配组合方式C的匹配概率值=0.25*0.25*0.75=0.046875。
接着,第二相似确定装置根据所述各第一匹配组合方式的匹配概率信息,获得所述相似度信息。
例如,各个第一匹配组合方式的匹配概率值如前述第一概率确定装置中的举例所示,第二相似确定装置选择最高的匹配概率值作为第一及第二字符串信息间的相似度值。
又例如,各个第一匹配组合方式的匹配概率值如前述第一概率确定装置中的举例所示,第二相似确定装置将最高的匹配概率值减去另两个匹配概率值,并将所得的值0.1875作为第一及第二字符串信息间的相似度值。
需要说明的是,作为本发明的优选方案之一,一个读音单元可匹配空字符串片段,即一个读音单元不匹配任何字符串片段;并且,一个字符串片段可匹配空读音单元,即一个字符串片段不匹配任何读音单元。为简洁起见,以下将上述两种匹配方式称为“空匹配”。则当存在空匹配时,所述第一匹配组合方式应相应拓展,例如,存在“K匹配クリ,R匹配空,M匹配一ム”的第一匹配组合方式等。相应的,预定读音匹配库中包含空匹配对,例如,包含匹配对“R_空_0.12”等。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由所述一个或多个第三匹配对中的匹配概率信息,获得各第一匹配组合方式的匹配概率信息,并根据所述各第一匹配组合方式的匹配概率信息,获得所述相似度信息的实现方式,例如,根据第三匹配对中的匹配概率等级来获得各第一匹配组合方式的匹配概率等级,以确定相似度等级,或者,将所对应的多个匹配概率值进行平方和、对数乘积等其他处理所得的值作为各个第一匹配组合方式的匹配概率值,并将各个第一匹配组合方式的匹配概率值进行除上例所示以外的其他处理所得的值作为第一及第二字符串信息间的相似度值等,均应包含在本发明的范围内。
作为本实施例的优选方案之一,根据本实施例的相似度确定装置还包括第四获取装置(图未示),第一确定装置4进一步包括第四查询装置(图未示),第四子确定装置422进一步包括第一相似确定装置(图未示)。
第四获取装置获取所述第二字符串信息的第二读音信息。第四获取装置获取所述第二读音信息的方式与前述第二获取装置2获取第一读音信息的方式相同或相似,在此不再赘述。
其中,第二读音信息包括至少一个第二读音单元,该第二读音单元为该第二读音信息所包含的一个独立单元;第一字符串信息包括至少一个第一字符串片段,该第一字符串片段为该第一字符串信息所包含的任意字符或任意多个相邻字符组合。
第四查询装置根据所述至少一个第二读音单元与所述至少一个第一字符串片段,在所述预定读音匹配库中进行查询,以获得至少一个第四匹配对,其中,所获得的每个第四匹配对包括所述至少一个第二读音单元之一与所述至少一个第一字符串片段之一。第四查询装置获取所述至少一个第四匹配对的方式与前述第三查询装置421获取至少一个第三匹配对的方式相同或相似,在此不再赘述。
接着,第一相似确定装置由在第三查询装置421中所获得的至少一个第三匹配对及第四匹配对中的匹配概率信息,来获得所述相似度信息。
具体地,第一相似确定装置对所获得的至少一个第三匹配对及第四匹配对中的匹配概率信息进行处理,以获得所述相似度信息。第一相似确定装置根据多个匹配概率信息来确定所述相似度信息的方式与第四子确定装置422根据至少一个匹配概率信息来确定相似度信息的方式相同或相似,在此不再赘述。
作为本实施例的优选方案之一,根据本实施例的相似度确定装置还包括第五获取装置(图未示)与第一确定装置4,其中,第一确定装置4进一步包括第二匹配确定装置(图未示),第二子查询装置(图未示)和第二概率确定装置(图未示),第二相似确定装置进一步包括子相似确定装置(图未示)。
第五获取装置获取所述第二字符串信息的第二读音信息,其中,所述第二读音信息包括至少一个第二读音单元。其中,第五获取装置获取第二读音信息的方式与前述第四获取装置获取第二读音信息的方式相同或相似,在此不再赘述。
第二匹配确定装置获取所述至少一个第二读音单元及所述至少一个第一字符串片段间的所有第二匹配组合方式。其中,第二匹配确定装置获取所有第二匹配组合方式的方式与第一匹配确定装置获取所有第一匹配组合方式的方式相同或相似,在此不再赘述。
接着,第二子查询装置在所述预定读音信息库中进行查询,以获得分别与各第二匹配组合方式对应的一个或多个第四匹配对。其中,第二子查询装置获取一个或多个第四匹配对的方式与第一子查询装置获取一个或多个第三匹配对的方式相同或相似,在此不再赘述。
接着,第二概率确定装置由所述一个或多个第四匹配对中的匹配概率信息,获得各第二匹配组合方式的匹配概率信息。其中,第二概率确定装置获取各第二匹配组合方式的匹配概率信息的方式与第一概率确定装置获取各第一匹配组合方式的匹配概率信息的方式相同或相似,在此不再赘述。
接着,子相似确定装置根据所述各第一匹配组合方式及各第二匹配方式的匹配概率信息,获得所述相似度信息。
具体地,子相似确定装置获得所述相似度信息的方式包括但不限于:
1)子相似确定装置根据各第一匹配组合方式的匹配概率信息获得第一初始配概率信息,并根据各第二匹配方式的匹配概率信息获得第二初始匹配概率信息;接着,子相似确定装置对该第一及第二初始匹配概率信息进行处理,来获得所述第一及第二字符串信息间的相似度信息。其中,子相似确定装置获取所述第一及第二初始匹配概率信息的方式与第二相似确定装置获取第一及第二字符串信息间的相似度信息的方式相同或相似,在此不再赘述。其中,对该第一及第二初始匹配概率信息所进行的处理包括:a)当初始匹配概率信息包括初始匹配概率值时,通过例如取平均值、平方和或对数和等处理来获得相似度信息;b)当初始匹配概率信息包括初始匹配概率等级时,通过例如取第一及第二初始匹配概率等级的平均等级或根据第一初始匹配概率等级来调整第二初始匹配概率等级等处理来获得相似度信息。
2)子相似确定装置直接根据各第一匹配组合方式及各第二匹配方式的匹配概率信息,获得所述相似度信息。其中,子相似确定装置直接根据各第一匹配组合方式及各第二匹配方式的匹配概率信息来获得所述相似度信息的方式与第二相似确定装置获取第一及第二字符串信息间的相似度信息的方式相同或相似,在此不再赘述。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述各第一匹配组合方式及各第二匹配方式的匹配概率信息,获得所述相似度信息的实现方式,均应包含在本发明的范围内。
根据本实施例的方法,能够根据读音信息中包含的读音单元与字符串信息中包含的字符串片段来确定两个字符串信息间的相似度信息,进一步提高了相似度判断的准确性。
图9为本发明另一个优选实施例的用于获取字符串间相似度的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第一获取装置1、第二获取装置2及包含于第一确定装置4中的第六获取装置431、第三概率确定装置432、第一迭代装置433和第五子确定装置434。
在本实施例中,预定读音匹配库中包括多个匹配对,每个匹配对包括预置读音单元、预置字符串片段及匹配概率信息,所述第一读音信息包括至少一个第一读音单元,所述第二字符串信息包括至少一个第二字符串片段。
第一获取装置1及第二获取装置2已在参照图6所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,第六获取装置431获取当前第一读音单元组合及当前第二字符串片段。
具体地,第六获取装置431根据各个第一读音单元在第一读音信息中的排序位置以及第二字符串信息中各个字符的排序位置,并结合已执行的获取当前第一读音单元组合及当前第二字符串片段的操作记录,来获取当前第一读音单元组合及当前第二字符串片段。
其中,所述操作记录包括但不限于以下至少一项:
1)已执行的获取操作次数;
2)已选择的第一读音单元组合及第二字符串片段;
3)已选择的第一读音单元组合所包含的读音单元数量及已选择的第二字符串片段所包含的字符数量。
例如,第一获取装置1获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,第二获取装置2获得第一读音信息“KRM”,并且,所述操作记录中包括前一次获取操作中所选择的当前第一读音单元组合及当前第二字符串片段分别为“KR”及“クリ一”,则第六获取装置431随机选择“KR”和“クリ一ム”,或者,“KRM”和“クリ一”来分别作为当前第一读音单元组合及当前第二字符串片段。
又例如,第一获取装置1获得第一字符串信息“cream”及第二字符串信息“クリ一ム”,第二获取装置2获得第一读音信息“KRM”,并且,所述操作记录中包括已选择的第一读音单元组合所包含的读音单元数量为2及已选择的第二字符串片段所包含的字符数量为3的信息,且当前第二字符串片段的调整优先级高于当前第一读音单元组合,则第六获取装置431将“KR”和“クリ一ム”作为当前第一读音单元组合及当前第二字符串片段。
需要说明的是,第六获取装置431可通过按照多种次序选择当前第一读音单元组合及当前第二字符串片段;例如,当第一读音信息包括“KR”,第二字符串信息包括“クリ一”,则第六获取装置431以如下任一次序来选择当前第一读音单元组合及当前第二字符串片段:
1)“K_ク”、“K_クリ”、“K_クリ一”、“KR_ク”、“KR_クリ”、“KR_クリ一”;
2)“K_ク”、“KR_ク”、“K_クリ”、“KR_クリ”、“K_クリ一”、“KR_クリ一”;
3)“K_ク”、“K_クリ”、“KR_ク”、“K_クリ一”、“KR_クリ”、“KR_クリ一”;
4)“R_一”、“R_リ一”、“R_クリ一”、“KR_一”、“KR_リ一”、“KR_クリ一”;
5)“R_一”、“KR_一”、“R_リ一”、“KR_リ一”、“R_クリ一”、“KR_クリ一”;
6)“R_一”、“KR_一”、“R_リ一”、“KR_リ一”、“R_クリ一”、“KR_クリ一”。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取当前第一读音单元组合及当前第二字符串片段的实现方式,均应包含在本发明的范围内。
接着,第三概率确定装置432根据基于所述当前第一读音单元组合与所述当前第二字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的第一当前概率信息,其中,所获得的每个匹配对包括所述当前第二读音单元组合中的全部或部分读音单元以及所述当前第二字符串片段中的全部或部分字符。
具体地,第三概率确定装置432获得第一当前概率信息的方式包括但不限于:
1)第三概率确定装置432根据基于当前第一读音单元组合中的预定第一读音单元及当前第二字符串片段来在预定读音匹配库中查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的一个或多个临时概率信息,以根据该一个或多个临时概率信息获得第一当前概率信息。
例如,预定第一读音单元为当前第一读音单元组合中的最后一个第一读音单元,且第一历史概率信息包括:
K_ク_0.75;
K_クリ_0.25;
K_クリ一_0;
K_クリ一ム_0;
KR_ク_0;
KR_クリ_0.1875;
预定读音匹配库中包括如下匹配对:
K_ク_0.75;
K_クリ_0.25;
R_リ_0.25;
R_リ一_0.5;
R_一_0.25;
M_ム_0.75;
M_一ム_0.25。
第六获取装置431获得当前第一读音单元组合“KR”及当前第二字符串片段“クリ一”,则第三概率确定装置432先根据预定第一读音单元“R”及第二字符串片段“一”在预定读音匹配库中查询并获得匹配对“R_一_0.25”,并结合第一历史概率信息中包含的历史概率记录“K_クリ_0.25”,获得当“R”匹配“一”且“K”匹配“クリ”时的临时概率信息0.0625;接着,第三概率确定装置432根据预定第一读音单元“R”及第二字符串片段“リ一”在预定读音匹配库中查询获得匹配对“R_リ一_0.75”,并结合第一历史概率信息中包含的历史概率记录“K_ク_0.75”,获得当“R”匹配“リ一”且“K”匹配“ク”时的临时概率信息0.5625;接着,第三概率确定装置432选择最高的临时概率信息0.5625作为当前第一读音单元组合“KR”与当前第二字符串片段间“クリ一”的第一当前概率信息。
2)第三概率确定装置432根据基于当前第二字符串片段中的预定字符及当前第一读音单元组合来在预定读音匹配库中查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的一个或多个临时概率信息,以根据该一个或多个临时概率信息获得第一当前概率信息。
例如,预定字符为当前第二字符串片段中的第一个字符,且第一历史概率信息包括:
M_ム_0.75;
RM_ム_0;
KRM_ム_0;
M_一ム_0.25;
预定读音匹配库中包括如下匹配对:
K_ク_0.75;
K_クリ_0.25;
R_リ_0.25;
R_リ一_0.5;
R_一_0.25;
M_ム_0.75;
M_一ム_0.25。
第六获取装置431获得当前第一读音单元组合“RM”及当前第二字符串片段“一ム”,则第三概率确定装置432先根据预定字符“一”及第一读音单元“R”在预定读音匹配库中查询并获得匹配对“R_一_0.25”,并结合第一历史概率信息中包含的历史概率记录“M_ム_0.75”,获得当“R”匹配“一”且“M”匹配“ム”时的临时概率信息0.1875;接着,第三概率确定装置432将该临时概率信息0.1875作为当前第一读音单元组合“RM”与当前第二字符串片段间“一ム”的第一当前概率信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据基于所述当前第一读音单元组合与所述当前第二字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的第一当前概率信息的实现方式,例如,匹配关系中包括空匹配且预定读音匹配库中包含空匹配对,或者,当获得多个临时概率信息时,对该多个临时概率信息进行取平均值、对数和等操作来获得第一当前概率信息等,均应包含在本发明的范围内。
接着,第一迭代装置433将所述第一当前概率信息作为所述第一历史概率信息之一,以使第六获取装置431及第三概率确定装置432重复其所执行的操作,且第一迭代装置433重复前述将所述第一当前概率信息作为所述第一历史概率信息之一的操作,直至所述当前第一读音单元组合与所述第一读音信息相同且所述当前第二字符串片段与所述第二字符串信息相同。
例如,对于第一读音信息“KRM”及第二字符串信息“クリ一ム”,相似度确定装置重复第六获取装置431及第三概率确定装置432的操作,并在每次操作第三概率确定装置432后将所得的第一当前概率信息作为第一历史概率信息之一,以逐次获得“K_ク”、“K_クリ”、“K_クリ一”、“K_クリ一ム”、“KR_ク”、“KR_クリ”、“KR_クリ一”、“KR_クリ一ム”、“KRM_ク”、“KRM_クリ”、“KRM_クリ一”直至“KRM_クリ一ム”的概率信息。
接着,第五子确定装置434根据所获得的第一当前概率信息,获得所述相似度信息。
例如,第五子确定装置434直接将最后所获得的第一当前概率信息作为第一及第二字符串信息间的相似度信息;又例如,第五子确定装置434将最后所获得的第一当前概率信息进行归一化或取整等处理后,将所得的值作为第一及第二字符串信息间的相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所获得的第一当前概率信息,获得所述相似度信息的实现方式,均应包含在本发明的范围内。
作为本实施例的优选方案之一,根据本实施例的相似度确定装置还包括第七获取装置,第一确定装置4进一步包括第八获取装置(图未示)、第四概率确定装置(图未示)及第二迭代装置(图未示),第五子确定装置434进一步包括第三相似确定装置(图未示)。
第七获取装置获取所述第二字符串信息的第二读音信息。其中,第七获取装置获取第二读音信息的方式已在前述第四获取装置中予以详述,并以引用的方式包含于此,不再赘述。
第八获取装置获取当前第二读音单元组合及当前第一字符串片段。其中,第八获取装置获取当前第二读音单元组合及当前第一字符串片段的方式与第六获取装置431获取当前第一读音单元组合及当前第二字符串片段的方式相同或相似,在此不再赘述。
接着,第四概率确定装置根据基于所述当前第二读音单元组合与所述当前第一字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第二历史概率信息,获得所述当前第二读音单元组合与所述当前第一字符串片段间的第二当前概率信息,其中,所获得的每个匹配对包括所述当前第二读音单元组合中的全部或部分读音单元以及所述当前第二字符串片段中的全部或部分字符。其中,第四概率确定装置获取所述第二当前概率信息的方式与在第三概率确定装置432获取第一当前概率信息的方式相同或相似,在此不再赘述。
接着,第二迭代装置将所述第二当前概率信息作为所述第二历史概率信息之一,以使第八获取装置及第四概率确定装置重复其所执行的操作,且第二迭代装置重复前述将所述第二当前概率信息作为所述第二历史概率信之一息的操作,直至所述第二读音单元组合与所述第二读音信息相同且所述当前第一字符串片段与所述第一字符串信息相同
第三相似确定装置根据前述第三概率确定装置432所获得的第一当前概率信息及所述第二当前概率信息,获得所述相似度信息。
具体地,第三相似确定装置根据所述第一及第二当前概率信息来获得所述相似度信息的方式包括但不限于:
1)第三相似确定装置由第一及第二当前概率信息中选择较高的概率信息作为第一及第二字符串信息间的相似度信息;
2)第三相似确定装置由第一及第二当前概率信息中选择较高的概率信息,并对所选择的概率信息进行相应处理,例如,归一化或取整,来将所得的值作为第一及第二字符串信息间的相似度信息;
3)第三相似确定装置对第一及第二当前概率信息进行相应处理,例如,对第一及第二当前概率信息进行取平均值、对数和、平方和、乘积等,来将所得的值作为第一及第二字符串信息间的相似度信息。
根据本实施例的方法,通过结合历史概率信息,能够大幅减少相似度确定装置的资源消耗,更快获得两个字符串信息间的相似度信息。
图10为本发明一个优选实施例的用于建立或更新预定读音匹配库的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第九获取装置8及更新装置9。
第九获取装置8获取一个或多个训练匹配对,其中,每个训练匹配对包括读音训练单元、字符串训练片段及训练概率信息。
具体地,第九获取装置8获取一个或多个训练匹配对的方式包括但不限于:
1)第九获取装置8获取其他设备提供的一个或多个训练匹配对;
2)第九获取装置8获取其预存储的一个或多个训练匹配对;
3)第九获取装置8通过其所包含的第十获取装置(图未示)、第三匹配确定装置(图未示)、统计装置(图未示)及生成装置(图未示)来获取一个或多个训练匹配对。
第十获取装置获取多个训练对,其中,每个训练对信息均包括读音训练信息与字符串训练信息,所述读音训练信息包括至少一个读音训练单元,所述字符串训练信息包括至少一个字符串训练片段。
具体地,第十获取装置获取多个训练对的方式包括但不限于:
1)第十获取装置获取其他设备提供的多个训练对;
2)第十获取装置获取其预存储的多个训练对;
3)第十获取装置获取多个待匹配的字符串对,对于每个字符串对,第十获取装置获取其中一个字符串的读音信息来作为读音训练信息,并将该字符串对中的另一个字符串作为字符串训练信息,以获得训练对。
接着,第三匹配确定装置确定每个训练对中的读音训练信息与字符串训练信息间的所有训练匹配方式。
其中,第三匹配确定装置获取训练匹配方式的方式与第一匹配装置获取前述第一匹配组合方式或第二匹配确定装置获取前述第二匹配组合方式的方式相同或相似,在此不再赘述。
接着,统计装置根据所述所有训练匹配方式,获得所述读音训练单元与所述字符串训练片段间的各匹配关系及各匹配关系在所有训练匹配方式中出现的次数。
例如,第十获取装置获得两个训练对“KRM_クリ一ム”及“KR_クリ一”,第三匹配确定装置获得训练对“KRM_クリ一ム”的所有训练匹配方式如下所示:
Figure GDA00002809022500531
训练对“KR_クリ一”的所有训练匹配方式如下所示:
Figure GDA00002809022500532
则统计装置统计获得读音训练单元与字符串训练片段间的各匹配关系及各匹配关系在所有训练匹配方式中出现的次数如下所示:
K_ク_3;
K_クリ_2;
R_リ_1;
R_リ一_2;
R_一_2;
M_ム_2;
M_一ム_1。
接着,生成装置根据各匹配关系出现的次数,分别获得各匹配关系的概率信息,以获得所述一个或多个训练匹配对。
例如,对于每个匹配关系,生成装置将其包含的读音单元作为读音训练单元,将其包含的字符串片段作为字符串训练片段,并对其对应的出现次数进行归一化后所得的值作为训练概率信息,来获得一个训练匹配对。生成装置对各个匹配关系及各匹配关系对应的出现次数均执行上述操作,以获得多个训练匹配对。
又例如,对于每个匹配关系,生成装置将其包含的读音单元作为读音训练单元,将其包含的字符串片段作为字符串训练片段,并根据其对应的出现次数所属的预定阈值范围来获得相应的等级,并将所获得的等级作为训练概率信息,来获得一个训练匹配对。生成装置对各个匹配关系及各匹配关系对应的出现次数均执行上述操作,以获得多个训练匹配对。
需要说明的是,当本实施例中包括空匹配,则训练匹配方式应相应拓展,例如,还包括“K匹配クリ,R匹配空,M匹配一ム”等训练匹配方式。并且,匹配关系应相应拓展,例如,还包括“R匹配空”等匹配关系。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据各匹配关系出现的次数,分别获得各匹配关系的概率信息,以获得所述一个或多个训练匹配对的实现方式,例如,直接将出现次数作为训练概率信息等,均应包含在本发明的范围内。
接着,更新装置根据所述训练匹配对,更新或建立所述预定读音匹配库。
例如,当预定读音匹配库中的任一匹配对均未同时包含一个训练匹配对中的读音训练单元及字符串训练片段时,更新装置将该训练匹配对中的读音训练单元作为预置读音单元,将该训练匹配对中的字符串训练片段作为预置字符串片段,并将该训练匹配对中的训练概率信息作为匹配概率信息,在预定读音匹配库中建立一个新的匹配对。
又例如,当预定读音匹配库中的一个匹配对同时包含一个训练匹配对中的读音训练单元及字符串训练片段时,更新装置根据该训练匹配对的训练概率信息来更新该预定读音匹配库中的匹配对的匹配概率信息。
作为本实施例的优选方案之一,生成装置进一步包括第五概率确定装置(图未示)、第一子更新装置(图未示)、第二子更新装置(图未示)及第三迭代装置(图未示)。
第五概率确定装置根据所述次数,确定各匹配关系的概率信息。
例如,第五概率确定装置直接将各匹配关系在所有训练匹配方式中出现的次数作为各匹配关系的概率信息;又例如,第五概率确定装置将各匹配关系在所有训练匹配方式中出现的次数乘以预定调节值后,将所得的各个积作为各匹配关系的概率信息等;再例如,第五概率确定装置将各个次数进行归一化处理后所得的值作为各匹配关系的概率信息等。
接着,第一子更新装置根据各匹配关系的概率信息,建立或更新所有训练匹配方式的权重值。
具体地,第一子更新装置根据各匹配关系的概率信息及各训练匹配方式包含的匹配关系,确定或更新各训练匹配方式的概率信息,以获得所有训练匹配方式的权重值。
例如,第三匹配确定装置获得前述训练匹配方式A1、A2、A3、B1及B2。第五概率确定装置对各个次数进行归一化处理后获得各匹配关系的概率信息如下所示:
K_ク_3/5;
K_クリ_2/5;
R_リ_1/5;
R_リ一_2/5;
R_一_2/5;
M_ム_2/3;
M_一ム_1/3。
则第一子更新装置根据各匹配关系的概率信息,获得各训练匹配方式的概率信息如下所示:
训练匹配方式A1的概率信息=(3/5)*(1/5)*(1/3)=3/75;
训练匹配方式A2的概率信息=(3/5)*(2/5)*(2/3)=12/75;
训练匹配方式A3的概率信息=(2/5)*(2/5)*(2/3)=8/75;
训练匹配方式B1的概率信息=(3/5)*(2/5)=6/25;
训练匹配方式B2的概率信息=(2/5)*(2/5)=4/25。
第一子更新装置对各个训练匹配方式的概率信息进行归一化后,获得各个训练匹配方式的权重值如下所示:
训练匹配方式A1的权重值=3/53;
训练匹配方式A2的权重值=12/53;
训练匹配方式A3的权重值=8/53;
训练匹配方式B1的权重值=18/53;
训练匹配方式B2的权重值=12/53。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据各匹配关系的概率信息,建立或更新所有训练匹配方式的权重值的实现方式,例如,将一个训练匹配方式所包含的各个匹配关系的概率信息之和作为该训练匹配方式的概率信息,或者,直接将概率信息作为权重值等,均应包含在本发明的范围内。
接着,第二子更新装置根据所述所有训练匹配方式的权重值及各训练匹配方式包含的匹配关系,更新所述各匹配关系的概率信息。
例如,所有训练匹配方式的权重值及各训练匹配方式包含的匹配关系如前述第一子更新装置中所示,则第二子更新装置将一个匹配关系所在的所有训练匹配方式的权重值之和作为该匹配关系更新后的概率信息,以获得各个匹配关系更新后的概率信息如下所示:
匹配关系“K_ク”更新后的概率信息=3/75+12/75+6/25=33/75;
匹配关系“K_クリ”更新后的概率信息=8/75+4/25=20/75;
匹配关系“R_リ”更新后的概率信息=3/75;
匹配关系“R_リ一”更新后的概率信息=12/75+6/25=30/75;
匹配关系“R_一”更新后的概率信息=8/75+4/25=20/75;
匹配关系“M_ム”更新后的概率信息=12/75+8/75=20/75;
匹配关系“M_一ム”更新后的概率信息=3/75。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述所有训练匹配方式的权重值及各训练匹配方式包含的匹配关系,更新所述各匹配关系的概率信息的实现方式,例如,将所获得的一个匹配关系所在的所有训练匹配方式的权重值之和进行归一化处理后,作为该匹配关系更新后的概率信息,又例如,将一个匹配关系所在的所有训练匹配方式的权重值对数和作为该匹配关系更新后的概率信息,再例如,当存在空匹配时,相应获得空匹配关系的概率信息等,均应包含在本发明的范围内。
接着,第三迭代装置控制第一子更新装置及第二子更新装置重复其所执行的操作直至重复次数达到预定阈值。则相似度确定装置根据最后一次操作第二子更新装置所得的各匹配关系的概率信息来获得所述一个或多个训练匹配对。
根据本实施例的方法,能够根据所获得的训练匹配对来建立或更新预定读音匹配库;优选地,根据本实施例的方法,能够通过统计大量训练匹配方式中各个匹配关系出现的次数,并对该出现的次数进行多轮处理,较准确地获得各种匹配关系的出现概率。
需要说明的是,为简洁起见,本发明所述实施例中均以日文片假名及英文举例,但本领域技术人员应该理解,根据本发明的方式适用于获取任何属于同种或不同语言间的两个字符串信息间的相似度信息。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (30)

1.一种计算机实现的在搜索、纠错和/或同义词挖掘中用于获取字符串间相似度的方法,其中,该方法包括以下步骤:
a获取第一字符串信息及第二字符串信息;
b获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
c基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息;
其中,所述预定读音匹配库包括多个匹配对,每个匹配对包括预置读音信息、预置字符串信息及匹配概率信息,所述步骤c包括以下步骤:
c11根据所述第一读音信息与所述第二字符串信息,在所述预定读音匹配库中进行匹配查询,以获得包含所述第一读音信息及所述第二字符串信息的第一匹配对,并从其中获取相应的第一匹配概率信息;
c12根据所获取的第一匹配概率信息来确定所述第一读音信息与第二字符串信息的相似度信息。
2.一种计算机实现的在搜索、纠错和/或同义词挖掘中用于获取字符串间相似度的方法,其中,该方法包括以下步骤:
-获取第二字符串信息的第二读音信息;
其中,该方法还包括以下步骤:
a获取第一字符串信息及第二字符串信息;
b获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
-根据所述第一读音信息与所述第二字符串信息在所述预定读音匹配库中查询,以获得第一匹配对,并根据所述第二读音信息与所述第一字符串信息在预定读音匹配库中进行查询,以获得包括所述第二读音信息与第一字符串信息的第二匹配对;
-由所述第一匹配对中的第一匹配概率信息与第二匹配对中的第二匹配概率信息,来确定所述第一字符串信息与第二字符串信息的相似度信息。
3.一种计算机实现的在搜索、纠错和/或同义词挖掘中用于获取字符串间相似度的方法,其中,该方法包括以下步骤:
a获取第一字符串信息及第二字符串信息;
b获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
c基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息;
其中,所述预定读音匹配库中包括多个匹配对,每个匹配对包括预置读音单元、预置字符串片段及匹配概率信息,所述第一读音信息包括至少一个第一读音单元,所述第二字符串信息包括至少一个第二字符串片段,所述步骤c包括以下步骤:
c21根据所述至少一个第一读音单元与所述至少一个第二字符串片段,在所述预定读音匹配库中进行查询,以获得至少一个第三匹配对,其中,所获得的每个第三匹配对包括所述至少一个第一读音单元之一与所述至少一个第二字符串片段之一;
c22由所获得的至少一个第三匹配对中的匹配概率信息,来获得所述相似度信息。
4.根据权利要求3所述的方法,其中,所述第一字符串信息包括至少一个第一字符串片段,其中,该方法还包括以下步骤:
-获取所述第二字符串信息的第二读音信息,其中,所述第二读音信息包括至少一个第二读音单元;
其中,所述步骤c还包括以下步骤:
-根据所述至少一个第二读音单元与所述至少一个第一字符串片段,在所述预定读音匹配库中进行查询,以获得至少一个第四匹配对,其中,所获得的每个第四匹配对包括所述至少一个第二读音单元之一与所述至少一个第一字符串片段之一;
其中,所述步骤c22包括以下步骤:
-由所获得的至少一个第三匹配对及第四匹配对中的匹配概率信息,来获得所述相似度信息。
5.根据权利要求3所述的方法,其中,所述步骤c21包括以下步骤:
-获取所述至少一个第一读音单元及所述至少一个第二字符串片段间的所有第一匹配组合方式;
-在预定读音信息库中进行查询,以获得分别与各第一匹配组合方式对应的一个或多个第三匹配对;
其中,所述步骤c22包括以下步骤:
c221由所述一个或多个第三匹配对中的匹配概率信息,获得各第一匹配组合方式的匹配概率信息;
c222根据所述各第一匹配组合方式的匹配概率信息,获得所述相似度信息。
6.根据权利要求5所述的方法,其中,该方法还包括以下步骤:
-获取所述第二字符串信息的第二读音信息,其中,所述第二读音信息包括至少一个第二读音单元;
其中,所述步骤c还包括以下步骤:
-获取所述至少一个第二读音单元及至少一个第一字符串片段间的所有第二匹配组合方式;
-在所述预定读音信息库中进行查询,以获得分别与各第二匹配组合方式对应的一个或多个第四匹配对;
其中,所述步骤c22还包括以下步骤:
-由所述一个或多个第四匹配对中的匹配概率信息,获得各第二匹配组合方式的匹配概率信息;
其中,所述步骤c222包括以下步骤:
-根据所述各第一匹配组合方式及各第二匹配方式的匹配概率信息,获得所述相似度信息。
7.一种计算机实现的在搜索、纠错和/或同义词挖掘中用于获取字符串间相似度的方法,其中,该方法包括以下步骤:
a获取第一字符串信息及第二字符串信息;
b获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
c基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息;
其中,所述预定读音匹配库中包括多个匹配对,每个匹配对包括预置读音单元、预置字符串片段及匹配概率信息,所述第一读音信息包括至少一个第一读音单元,所述第二字符串信息包括至少一个第二字符串片段,其中,所述步骤c包括以下步骤:
c31获取当前第一读音单元组合及当前第二字符串片段;
c32根据基于所述当前第一读音单元组合与所述当前第二字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的第一当前概率信息,其中,所获得的每个匹配对包括所述当前第一读音单元组合中的全部或部分读音单元以及所述当前第二字符串片段中的全部或部分字符;
c33将所述第一当前概率信息作为所述第一历史概率信息之一,以重复步骤c31至c32以及前述将所述第一当前概率信息作为所述第一历史概率信息之一的步骤,直至所述当前第一读音单元组合与所述第一读音信息相同且所述当前第二字符串片段与所述第二字符串信息相同;
其中,所述步骤c还包括:
c34根据所获得的第一当前概率信息,获得所述相似度信息。
8.根据权利要求7所述的方法,其中,所述第一字符串信息包括至少一个第一字符串片段,其中,该方法还包括以下步骤:
-获取所述第二字符串信息的第二读音信息,其中,所述第二读音信息包括至少一个第二读音单元;
其中,所述步骤c还包括以下步骤:
c31’获取当前第二读音单元组合及当前第一字符串片段;
c32’根据基于所述当前第二读音单元组合与所述当前第一字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第二历史概率信息,获得所述当前第二读音单元组合与所述当前第一字符串片段间的第二当前概率信息,其中,所获得的每个匹配对包括所述当前第二读音单元组合中的全部或部分读音单元以及所述当前第二字符串片段中的全部或部分字符;
c33’将所述第二当前概率信息作为所述第二历史概率信息之一,来重复步骤c31’至c32’以及前述将所述第二当前概率信息作为所述第二历史概率信之一息的步骤,直至所述第二读音单元组合与所述第二读音信息相同且所述当前第一字符串片段与所述第一字符串信息相同;
其中,所述步骤c34包括以下步骤:
-根据所述第一及第二当前概率信息,获得所述相似度信息。
9.根据权利要求1至8中任一项所述的方法,其中,所述第一字符串信息与所述第二字符串信息分别属于两种语言。
10.根据权利要求9所述的方法,其中,该方法还包括以下步骤:
-根据预定的转换规则,将所述第一及第二字符串信息中的一个转换为目标字符串信息,其中,所述目标字符串信息所属语言与另一个字符串信息所属语言相同;
-判断所述目标字符串信息是否与另一个字符串信息相同;
-当判断所述目标字符串信息与另一个字符串信息相同时,确定所述第一及第二字符串信息间的相似度信息为最高相似度信息;
其中,所述步骤b包括以下步骤:
-当判断所述目标字符串信息与另一个字符串信息不同时,获取所述第一字符串信息的第一读音信息。
11.根据权利要求1至8中任一项所述的方法,其中,该方法还包括以下步骤:
x获取一个或多个训练匹配对,其中,每个训练匹配对包括读音训练单元、字符串训练片段及训练概率信息;
y根据所述训练匹配对,更新或建立所述预定读音匹配库。
12.根据权利要求11所述的方法,其中,所述步骤x包括以下步骤:
x1获取多个训练对,其中,每个训练对信息均包括读音训练信息与字符串训练信息,所述读音训练信息包括至少一个读音训练单元,所述字符串训练信息包括至少一个字符串训练片段;
x2确定每个训练对中的读音训练信息与字符串训练信息间的所有训练匹配方式;
x3根据所述所有训练匹配方式,获得所述读音训练单元与所述字符串训练片段间的各匹配关系及各匹配关系在所有训练匹配方式中出现的次数;
x4根据各匹配关系出现的次数,分别获得各匹配关系的概率信息,以获得所述一个或多个训练匹配对。
13.根据权利要求12所述的方法,其中,所述步骤x4包括以下步骤:
x41根据所述次数,确定各匹配关系的概率信息;
x42根据各匹配关系的概率信息,建立或更新所有训练匹配方式的权重值;
x43根据所述所有训练匹配方式的权重值及各训练匹配方式包含的匹配关系,更新所述各匹配关系的概率信息;
x44重复步骤x42至x43直至重复次数达到预定阈值。
14.根据权利要求1至8中任一项所述的方法,其中,所述步骤b包括以下步骤:
-根据预定的注音规则,对所述第一字符串信息进行注音,以获得所述第一读音信息。
15.根据权利要求1至8中任一项所述的方法,其中,所述步骤b包括以下步骤:
-根据预置字符读音组合信息,对所述第一字符串信息进行划分,以将划分后的字符串片段作为第一读音信息。
16.一种在搜索、纠错和/或同义词挖掘中用于获取不同语言字符串间相似度的相似度确定装置,其中,该相似度确定装置包括:
第一获取装置,用于第一字符串信息及第二字符串信息;
第二获取装置,用于获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
第一确定装置,用于基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息;
其中,所述预定读音匹配库包括多个匹配对,每个匹配对包括预置读音信息、预置字符串信息及匹配概率信息,所述第一确定装置包括:
第一查询装置,用于根据所述第一读音信息与所述第二字符串信息,在所述预定读音匹配库中进行匹配查询,以获得包含所述第一读音信息及所述第二字符串信息的第一匹配对,并从其中获取相应的第一匹配概率信息;
第一子确定装置,用于根据所获取的第一匹配概率信息来确定所述第一读音信息与第二字符串信息的相似度信息。
17.一种在搜索、纠错和/或同义词挖掘中用于获取不同语言字符串间相似度的相似度确定装置,其中,该相似度确定装置包括:
第三获取装置,用于获取第二字符串信息的第二读音信息;
第一获取装置,用于第一字符串信息及第二字符串信息;
第二获取装置,用于获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
第二查询装置,用于根据所述第一读音信息与所述第二字符串信息在所述预定读音匹配库中查询,以获得第一匹配对,并根据所述第二读音信息与所述第一字符串信息在预定读音匹配库中进行查询,以获得包括所述第二读音信息与第一字符串信息的第二匹配对;
第三子确定装置,用于由所述第一匹配对中的第一匹配概率信息与第二匹配对中的第二匹配概率信息,来确定所述第一字符串信息与第二字符串信息的相似度信息。
18.一种在搜索、纠错和/或同义词挖掘中用于获取不同语言字符串间相似度的相似度确定装置,其中,该相似度确定装置包括:
第一获取装置,用于第一字符串信息及第二字符串信息;
第二获取装置,用于获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
第一确定装置,用于基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息;
其中,所述预定读音匹配库中包括多个匹配对,每个匹配对包括预置读音单元、预置字符串片段及匹配概率信息,所述第一读音信息包括至少一个第一读音单元,所述第二字符串信息包括至少一个第二字符串片段,所述第一确定装置包括:
第三查询装置,用于根据所述至少一个第一读音单元与所述至少一个第二字符串片段,在所述预定读音匹配库中进行查询,以获得多个第三匹配对,其中,所获得的每个第三匹配对包括所述至少一个第一读音单元之一与所述至少一个第二字符串片段之一;
第四子确定装置,用于由所获得的至少一个第三匹配对中的匹配概率信息,来获得所述相似度信息。
19.根据权利要求18所述的相似度确定装置,其中,所述第一字符串信息包括至少一个第一字符串片段,其中,该相似度确定装置还包括:
第四获取装置,用于获取所述第二字符串信息的第二读音信息,其中,所述第二读音信息包括至少一个第二读音单元;
其中,所述第一确定装置还包括:
第四查询装置,用于根据所述至少一个第二读音单元与所述至少一个第一字符串片段,在所述预定读音匹配库中进行查询,以获得多个第四匹配对,其中,所获得的每个第四匹配对包括所述至少一个第二读音单元之一与所述至少一个第一字符串片段之一;
其中,所述第四子确定装置包括:
第一相似确定装置,由所获得的至少一个第三匹配对及第四匹配对中的匹配概率信息,来获得所述相似度信息。
20.根据权利要求18所述的相似度确定装置,其中,所述第三查询装置包括:
第一匹配确定装置,用于获取所述至少一个第一读音单元及所述至少一个第二字符串片段间的所有第一匹配组合方式;
第一子查询装置,用于在预定读音信息库中进行查询,以获得分别与各第一匹配组合方式对应的一个或多个第三匹配对;
其中,所述第四子确定装置包括:
第一概率确定装置,用于由所述一个或多个第三匹配对中的匹配概率信息,获得各第一匹配组合方式的匹配概率信息;
第二相似确定装置,用于根据所述各第一匹配组合方式的匹配概率信息,获得所述相似度信息。
21.根据权利要求20所述的相似度确定装置,其中,该相似度确定装置还包括:
第五获取装置,用于获取所述第二字符串信息的第二读音信息,其中,所述第二读音信息包括至少一个第二读音单元;
其中,所述第一确定装置还包括:
第二匹配确定装置,用于获取所述至少一个第二读音单元及至少一个第一字符串片段间的所有第二匹配组合方式;
第二子查询装置,用于在所述预定读音信息库中进行查询,以获得分别与各第二匹配组合方式对应的一个或多个第四匹配对;
其中,所述第四子确定装置还包括:
第二概率确定装置,用于由所述一个或多个第四匹配对中的匹配概率信息,获得各第二匹配组合方式的匹配概率信息;
其中,所述第二相似确定装置包括:
子相似确定装置,用于根据所述各第一匹配组合方式及各第二匹配方式的匹配概率信息,获得所述相似度信息。
22.一种在搜索、纠错和/或同义词挖掘中用于获取不同语言字符串间相似度的相似度确定装置,其中,该相似度确定装置包括:
第一获取装置,用于第一字符串信息及第二字符串信息;
第二获取装置,用于获取所述第一字符串信息的第一读音信息,其中,所述第一读音信息包括所述第一字符串信息的注音信息和/或由所述第一字符串信息划分出的字符串片段;
第一确定装置,用于基于预定读音匹配库,根据所述第一读音信息及所述第二字符串信息,确定所述第一及第二字符串信息间的相似度信息;
其中,所述预定读音匹配库中包括多个匹配对,每个匹配对包括预置读音单元、预置字符串片段及匹配概率信息,所述第一读音信息包括至少一个第一读音单元,所述第二字符串信息包括至少一个第二字符串片段,其中,所述第一确定装置包括:
第六获取装置,用于获取当前第一读音单元组合及当前第二字符串片段;
第三概率确定装置,用于根据基于所述当前第一读音单元组合与所述当前第二字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第一历史概率信息,获得所述当前第一读音单元组合与所述当前第二字符串片段间的第一当前概率信息,其中,所获得的每个匹配对包括所述当前第一读音单元组合中的全部或部分读音单元以及所述当前第二字符串片段中的全部或部分字符;
第一迭代装置,用于将所述第一当前概率信息作为所述第一历史概率信息之一,以重复第六获取装置及第三概率确定装置所执行的操作以及前述将所述第一当前概率信息作为所述第一历史概率信息之一的操作,直至所述当前第一读音单元组合与所述第一读音信息相同且所述当前第二字符串片段与所述第二字符串信息相同;
其中,所述第一确定装置还包括:
第五子确定装置,用于根据所获得的第一当前概率信息,获得所述相似度信息。
23.根据权利要求22所述的相似度确定装置,其中,所述第一字符串信息包括至少一个第一字符串片段,其中,该相似度确定装置还包括:
第七获取装置,用于获取所述第二字符串信息的第二读音信息,其中,所述第二读音信息包括至少一个第二读音单元;
其中,所述第一确定装置还包括:
第八获取装置,用于获取当前第二读音单元组合及当前第一字符串片段;
第四概率确定装置,用于根据基于所述当前第二读音单元组合与所述当前第一字符串片段来在所述预定读音匹配库中进行查询所得的一个或多个匹配对,并结合第二历史概率信息,获得所述当前第二读音单元组合与所述当前第一字符串片段间的第二当前概率信息,其中,所获得的每个匹配对包括所述当前第二读音单元组合中的全部或部分读音单元以及所述当前第二字符串片段中的全部或部分字符;
第二迭代装置,用于将所述第二当前概率信息作为所述第二历史概率信息之一,来重复第八获取装置、第四概率确定装置所执行的操作以及前述将所述第二当前概率信息作为所述第二历史概率信息之一的操作,直至所述第二读音单元组合与所述第二读音信息相同且所述当前第一字符串片段与所述第一字符串信息相同;
其中,所述第五子确定装置包括:
第三相似确定装置,用于根据所述第一及第二当前概率信息,获得所述相似度信息。
24.根据权利要求16至23中任一项所述的相似度确定装置,其中,所述第一字符串信息与所述第二字符串信息分别属于两种语言。
25.根据权利要求24所述的相似度确定装置,其中,该相似度确定装置还包括:
转换装置,用于根据预定的转换规则,将所述第一及第二字符串信息中的一个转换为目标字符串信息,其中,所述目标字符串信息所属语言与另一个字符串信息所属语言相同;
判断装置,用于判断所述目标字符串信息是否与另一个字符串信息相同;
第二确定装置,用于当判断所述目标字符串信息与另一个字符串信息相同时,确定所述第一及第二字符串信息间的相似度信息为最高相似度信息;
其中,所述第二获取装置还用于:
当判断所述目标字符串信息与另一个字符串信息不同时,获取所述第一字符串信息的第一读音信息。
26.根据权利要求16至23中任一项所述的相似度确定装置,其中,该相似度确定装置还包括:
第九获取装置,用于获取一个或多个训练匹配对,其中,每个训练匹配对包括读音训练单元、字符串训练片段及训练概率信息;
更新装置,用于根据所述训练匹配对,更新或建立所述预定读音匹配库。
27.根据权利要求26所述的相似度确定装置,其中,所述第九获取装置包括:
第十获取装置,用于获取多个训练对,其中,每个训练对信息均包括读音训练信息与字符串训练信息,所述读音训练信息包括至少一个读音训练单元,所述字符串训练信息包括至少一个字符串训练片段;
第三匹配确定装置,用于确定每个训练对中的读音训练信息与字符串训练信息间的所有训练匹配方式;
统计装置,用于根据所述所有训练匹配方式,获得所述读音训练单元与所述字符串训练片段间的各匹配关系及各匹配关系在所有训练匹配方式中出现的次数;
生成装置,用于根据各匹配关系出现的次数,分别获得各匹配关系的概率信息,以获得所述一个或多个训练匹配对。
28.根据权利要求27所述的相似度确定装置,其中,所述生成装置包括:
第五概率确定装置,用于根据所述次数,确定各匹配关系的概率信息;
第一子更新装置,用于根据各匹配关系的概率信息,建立或更新所有训练匹配方式的权重值;
第二子更新装置,用于根据所述所有训练匹配方式的权重值及各训练匹配方式包含的匹配关系,更新所述各匹配关系的概率信息;
第三迭代装置,用于使得第一子更新装置及第二子更新装置重复其所执行的操作直至重复次数达到预定阈值。
29.根据权利要求16至23中任一项所述的相似度确定装置,其中,所述第二获取装置还包括:
第一子获取装置,用于根据预定的注音规则,对所述第一字符串信息进行注音,以获得所述第一读音信息。
30.根据权利要求16至23中任一项所述的相似度确定装置,其中,所述第二获取装置还用于:
第二子获取装置,用于根据预置字符读音组合信息,对所述第一字符串信息进行划分,以将划分后的字符串片段作为第一读音信息。
CN201110099472.3A 2011-04-20 2011-04-20 用于获取字符串间相似度的方法、装置和设备 Active CN102184195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110099472.3A CN102184195B (zh) 2011-04-20 2011-04-20 用于获取字符串间相似度的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110099472.3A CN102184195B (zh) 2011-04-20 2011-04-20 用于获取字符串间相似度的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN102184195A CN102184195A (zh) 2011-09-14
CN102184195B true CN102184195B (zh) 2014-01-08

Family

ID=44570372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110099472.3A Active CN102184195B (zh) 2011-04-20 2011-04-20 用于获取字符串间相似度的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN102184195B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365896B (zh) * 2012-04-01 2018-02-16 北京百度网讯科技有限公司 一种确定目标字符序列对应的语调信息的方法与设备
CN102831177B (zh) * 2012-07-31 2015-09-02 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
CN103428307B (zh) * 2013-08-09 2016-07-20 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN106815593B (zh) * 2015-11-27 2019-12-10 北京国双科技有限公司 中文文本相似度的确定方法和装置
CN111831869B (zh) * 2020-06-30 2023-11-03 深圳价值在线信息科技股份有限公司 一种字符串的查重方法、装置、终端设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030216A (zh) * 2007-04-02 2007-09-05 丁光耀 基于特性参数的字符串匹配方法
CN101158947A (zh) * 2006-09-22 2008-04-09 株式会社东芝 机器翻译的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352888A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 表記揺れ対応辞書作成システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158947A (zh) * 2006-09-22 2008-04-09 株式会社东芝 机器翻译的方法和装置
CN101030216A (zh) * 2007-04-02 2007-09-05 丁光耀 基于特性参数的字符串匹配方法

Also Published As

Publication number Publication date
CN102184195A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
US10685185B2 (en) Keyword recommendation method and system based on latent Dirichlet allocation model
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
WO2020182122A1 (zh) 用于生成文本匹配模型的方法和装置
CN105917327A (zh) 用于将文本输入到电子设备中的系统和方法
CN101290632B (zh) 一种用户词参与智能组词输入的方法及一种输入法系统
CN101183281B (zh) 一种输入法中候选词的相关词输入的方法及系统
US20160188574A1 (en) Intention estimation equipment and intention estimation system
CN106202059A (zh) 机器翻译方法以及机器翻译装置
CN102184195B (zh) 用于获取字符串间相似度的方法、装置和设备
CN101984422B (zh) 一种容错文本查询的方法和设备
EP3627398A1 (en) Method, system, and computer program for artificial intelligence answer
CN109922371A (zh) 自然语言处理方法、设备及存储介质
CN102193993B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
KR20200000216A (ko) 단어자질을 강화한 음성 대화 방법 및 시스템
CN102063195A (zh) 一种用于供用户进行中英文混合输入的方法与设备
US20190188647A1 (en) Multiple element job classification
CN104281275B (zh) 一种英文的输入方法和装置
CN103092860A (zh) 搜索提示信息生成方法及装置
CN110110143B (zh) 一种视频分类方法及装置
CN101751290B (zh) 一种调用功能模块的方法、装置及erp系统
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
US10467530B2 (en) Searching text via function learning
JP6698061B2 (ja) 単語ベクトル変換装置、方法、及びプログラム
US11947589B2 (en) Web-scale personalized visual search recommendation service

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant