CN111199726B

CN111199726B - 基于语音成分的细粒度映射的语言语音处理

Info

Publication number: CN111199726B
Application number: CN201911003118.9A
Authority: CN
Inventors: 李旻; 李蕴瑶; M·D·哈尔佩恩; S·诺尔曼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-10-31
Filing date: 2019-10-22
Publication date: 2023-09-22
Anticipated expiration: 2039-10-22
Also published as: US10811003B2; US20200135177A1; CN111199726A

Abstract

本公开涉及基于语音成分的细粒度映射的语言语音处理。在一个实施例中，一种计算机实现的方法包括获取特定语言的第一单词的发音以及识别该发音的语音成分。该方法包括获取针对在第一单词的发音中所识别的语音成分的类型的语音成分映射表，以及使用语音成分映射表将语音值分配给所识别的语音成分。对于第二单词，该方法包括获取第二单词的发音，识别该发音的语音成分，以及将语音值分配给所识别的语音成分。另外，该方法包括使用第一单词和第二单词的相应的识别的语音成分的分配语音值来计算第一单词的所识别的语音成分与第二单词的所识别的语音成分之间的语音距离，以及将计算出的语音距离存储在文件中。

Description

基于语音成分的细粒度映射的语言语音处理

技术领域

本发明涉及特定语言的语音处理，更具体地，本发明涉及基于语音成分的细粒度映射的语言语音处理。

背景技术

语音相似度算法识别在许多自然语言处理任务中使用的具有相似发音的单词和短语。然而，现有的方法主要是为印欧语系语言设计的，无法捕获与印欧语系语言不同的语言(例如，具有书写文字的语言)的独特属性。

进行将“I’m hear”变换为“I’m here”或者将“I can’t so buttons”变换为“Ican’t sew buttons”的心理体操对于遇到自动更正的短信、在社交媒体帖子中用双关语的人或语法不佳的朋友来说是熟悉的。尽管乍看之下似乎只能量化可听单词的语音相似度，但是这个问题常常出现在例如社交媒体帖子、短信等的纯文本空间中。不正确的同音词(即，相同的发音，不同的含义)和近音词(即，相似的发音，不同的含义)不论是错误使用还是开玩笑地使用，都会对例如命名实体标识、文本规范化、音译、拼写校正等广泛的自然语言处理(NLP)任务提出挑战。对于这些任务而言，将错误的单词或短语(“hear”，“so”)成功地变换为对应的语音正确的单词或短语(“here”，“sew”)具有挑战性。需要对任何特定语言的单词对之间的语音相似度的鲁棒表示。对于所有语言而言，生成语音上相似的单词的可靠方法同样至关重要。

不幸的是，大多数现有的语音相似度算法(例如Soundex和Double Metaphone(DM))都是由英语驱使的且为印欧语系语言设计的。在这些处理中，通过忽略元音(最重要的元音除外)将单词编码为近似的语音表示，这在语音转录包括一系列音素(例如英语)时可能是合适的。相反，其他语言的语声可能涉及几个部分。例如，中文文字的语声由具有以下的两个或三个部分的拼音发音中的单个音节表示：首部(可选的)、尾部或复合尾部和声调(请参见表1)。

表1.拼音的例子

作为其他语言的复杂性的示例，表2(下面)示出了来自中国微博的两个句子，其中包含源自语音转录的非正式单词。表3(上面)中示出了字符“xi2 huan1”(表2的顶行)的拼音发音的近同音词的DM和Soundex编码。由于DM和Soundex都忽略了元音和声调，因此将发音不相似的单词错误地分配给相同的DM和Soundex编码(例如xi1fan4和xie4fen4)，而真正的近音词被编码得更远(例如xi1fan4和xi2huan1)。因此，DM和Soundex的语音算法没有合理地应用于具有多个成分的语言。希望有一种可以适用于具有多个声音和发音成分的语言的语音算法。

表2.使用语音转录的微博

单词	DM	Soundex
			稀x_i1饭fan4	S：S，FN：FN	x000，F500
喜xi2欢huan1	S：S，HN：HN	X000，H500
			泄xie4愤fen4	S：S.FN：FN	X000，F500

表3.中文单词的DM和Soundex

发明内容

在一个实施例中，一种用于确定特定语言的两个单词之间的语音距离的计算机实现方法包括：获取特定语言的第一单词的发音，以及识别该第一单词的发音的语音成分，其中语音成分对应于特定语言的语音成分的类型。该计算机实现方法还包括获取针对在第一单词的发音中识别的语音成分的类型的语音成分映射表，以及使用该语音成分映射表将语音值分配给第一单词的发音的所识别的语音成分。另外，对于第二单词，该计算机实现方法继续获取特定语言的第二单词的发音，识别第二单词的发音的语音成分，以及使用语音成分映射表将语音值分配给第二单词的所识别的语音成分，其中第一单词和第二单词不同。另外，该方法包括使用(a)第一单词的所识别的语音成分的分配语音值和(b)第二单词的所识别的语音成分的分配语音值来计算(i)第一单词的所识别的语音成分与(ii)第二单词的所识别的语音成分之间的语音距离，以及与第一单词的所识别的语音成分相关联地存储所计算出的语音距离。

在另一个实施例中，一种用于对具有与种子单词的发音相似的发音的一系列候选单词进行排名的计算机实现方法包括：获取特定语言的种子单词的发音，以及识别种子单词的发音的语音成分，其中语音成分对应于所述特定语言的语音成分的类型。该计算机实现方法继续获取针对种子单词的发音中识别的语音成分的类型的语音成分映射表；使用语音成分映射表将语音值分配给所识别的语音成分；获取所述特定语言的多个候选单词中的给定候选单词的发音；识别所述多个候选单词中的所述给定候选单词的发音的语音成分，其中所述多个候选单词和种子单词不同；以及使用语音成分映射表将语音值分配给所识别的语音成分。对于在种子单词中识别的每种类型的语音成分，该计算机实现方法包括：使用(a)种子单词的所识别的语音成分的分配语音值和(b)候选单词的所识别的语音成分的分配语音值来计算(i)种子单词的所识别的语音成分与(ii)候选单词的所识别的语音成分之间的语音距离；确定种子单词和候选单词之间的语音相似度距离，其中语音相似度距离包括计算种子单词和候选单词之间的多个语音距离的总和，每个语音距离表示给定类型的语音成分。而且，该计算机实现方法包括：生成一系列候选单词，其中基于所确定的种子单词与每个候选单词之间的语音相似度距离的值，所述一系列候选单词中的每个候选单词具有与种子单词的发音相似的发音；以及按照所确定的种子单词与每个候选单词之间的语音相似度距离的值的顺序，对具有与种子单词相似的发音的候选单词进行排名。

在又一个实施例中，一种用于对具有与种子单词的发音相似的发音的一系列候选单词进行排名的计算机实现方法，其中候选单词和种子单词属于汉语，所述计算机实现方法包括：获取汉语的种子单词的拼音发音，其中种子单词由一系列文字组成，其中每个文字具有拼音发音。该计算机实现方法包括：识别种子单词的一个文字的拼音发音中的拼音语音成分，其中拼音语音成分选自由以下项组成的拼音语音成分组：首部、尾部和声调；以及获取选自由以下项组成的组的拼音成分映射表：拼音首部映射表、拼音尾部映射表和拼音声调映射表。该计算机实现方法继续使用相应的拼音语音成分映射表将语音值分配给种子单词的文字的拼音发音的所识别的拼音语音成分。而且，该计算机实现方法包括：获取汉语的多个候选单词中的给定候选单词的拼音发音，其中所述候选单词中的给定候选单词由一系列文字组成，其中每个文字具有拼音发音；识别所述候选单词中的给定候选单词的文字的拼音发音的拼音语音成分；以及使用相应的拼音语音成分映射表将语音值分配给文字的拼音发音的所识别的拼音语音成分。对于在种子单词的文字中识别的每种类型的语音成分，该计算机实现方法包括：使用(a)种子单词的文字的所识别的拼音语音成分的分配语音值和(b)候选单词的文字的所识别的拼音语音成分的分配语音值来计算(i)种子单词的文字的所识别的拼音语音成分与(ii)候选单词的文字的所识别的拼音语音成分之间的语音距离；以及确定种子单词和候选单词之间的语音相似度距离，其中语音相似度距离包括计算种子单词和候选单词之间的多个语音距离的总和，每个语音距离表示给定类型的语音成分。另外，该计算机实现方法包括生成一系列候选单词，其中基于所确定的种子单词与每个候选单词之间的语音相似度距离的值，所述一系列候选单词中的每个候选单词具有与种子单词的拼音发音相似的拼音发音；以及按照所确定的种子单词与每个候选单词之间的语音相似度距离的值的顺序，对具有与种子单词相似的拼音发音的候选单词进行排名。

通过下面的详细描述，本发明的其他方面和实施例将变得显而易见，当结合附图时，下面的详细描述以示例的方式示出了本发明的原理。

附图说明

图1示出了根据一个实施例的网络架构。

图2示出了根据一个实施例的可以与图1的服务器和/或客户端相关联的表示性硬件环境。

图3A描绘了根据一个实施例的方法的流程图。

图3B描绘了根据一个实施例的方法的流程图

图4A是根据一个实施例的来自语音成分映射表的子集的示例。

图4B是根据一个实施例的首部语音成分映射表的子集的示例。

图4C是根据一个实施例的尾部语音成分映射表的子集的示例。

图5是根据一个实施例的方法的示意图。

图6是根据一个实施例的用于生成候选单词并对其进行排名的算法的示例。

图7A是各种方法的查全率的有效性的图。

图7B是各种方法的精度的有效性的图。

图8是根据一个实施例的在多个维度上编码语音成分的有效性的图。

图9A是根据一个实施例的阈值增加对查全率的有效性的图。

图9B是根据一个实施例的候选单词数量增加对查全率的有效性的图。

具体实施方式

以下描述是出于说明本发明的一般原理的目的而进行的，并不意味着限制本文所要求保护的发明构思。此外，在此描述的特定特征可以在各种可能的组合和排列的每一个中与其他描述的特征结合使用。

除非本文另外明确定义，否则应给所有术语最广泛的解释，包括从说明书中隐含的含义以及本领域技术人员理解的含义和/或如字典、专著等所定义的含义。

还必须注意，如说明书和所附权利要求书中所使用的，单数形式“一个”，“一种”和“该”包括复数指示物，除非另有说明。将会进一步理解，术语“包括”和/或“包含”在本说明书中使用时指定所述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其它的特征、整数、步骤、操作、元件、组件和/或其集合的存在或添加。

以下描述公开了用于基于语音成分的细粒度映射的语言语音处理的系统、方法和计算机程序产品的若干个优选实施例。

在一个一般实施例中，一种用于确定特定语言的两个单词之间的语音距离的计算机实现方法包括：获取特定语言的第一单词的发音，以及识别该第一单词的发音的语音成分，其中语音成分对应于特定语言的语音成分的类型。该计算机实现方法还包括获取针对在第一单词的发音中识别的语音成分的类型的语音成分映射表，以及使用该语音成分映射表将语音值分配给第一单词的发音的所识别的语音成分。另外，对于第二单词，该计算机实现方法继续获取特定语言的第二单词的发音，识别第二单词的发音的语音成分，以及使用语音成分映射表将语音值分配给第二单词的所识别的语音成分，其中第一单词和第二单词不同。另外，该方法包括使用(a)第一单词的所识别的语音成分的分配语音值和(b)第二单词的所识别的语音成分的分配语音值来计算(i)第一单词的所识别的语音成分与(ii)第二单词的所识别的语音成分之间的语音距离，以及与第一单词的所识别的语音成分相关联地存储所计算出的语音距离。

在另一个一般实施例中，一种用于对具有与种子单词的发音相似的发音的一系列候选单词进行排名的计算机实现方法包括：获取特定语言的种子单词的发音，以及识别种子单词的发音的语音成分，其中语音成分对应于所述特定语言的语音成分的类型。该计算机实现方法继续：获取针对种子单词的发音中识别的语音成分的类型的语音成分映射表；使用语音成分映射表将语音值分配给所识别的语音成分；获取所述特定语言的多个候选单词中的给定候选单词的发音，其中所述多个候选单词和种子单词不同；识别所述多个候选单词中的所述给定候选单词的发音的语音成分；以及使用语音成分映射表将语音值分配给所识别的语音成分。对于在种子单词中识别的每种类型的语音成分，该计算机实现方法包括：使用(a)种子单词的所识别的语音成分的分配语音值和(b)候选单词的所识别的语音成分的分配语音值来计算(i)种子单词的所识别的语音成分与(ii)候选单词的所识别的语音成分之间的语音距离；确定种子单词和候选单词之间的语音相似度距离，其中语音相似度距离包括计算种子单词和候选单词之间的多个语音距离的总和，每个语音距离表示给定类型的语音成分。而且，该计算机实现方法包括：生成一系列候选单词，其中基于所确定的种子单词与每个候选单词之间的语音相似度距离的值，所述一系列候选单词中的每个候选单词具有与种子单词的发音相似的发音；以及按照所确定的种子单词与每个候选单词之间的语音相似度距离的值的顺序，对具有与种子单词相似的发音的候选单词进行排名。

在又一个一般实施例中，一种用于对具有与种子单词的发音相似的发音的一系列候选单词进行排名的计算机实现方法，其中候选单词和种子单词属于汉语，所述计算机实现方法包括：获取汉语的种子单词的拼音发音，其中种子单词由一系列文字组成，其中每个文字具有拼音发音。该计算机实现方法包括：识别种子单词的一个文字的拼音发音中的拼音语音成分，其中拼音语音成分选自由以下项组成的拼音语音成分组：首部、尾部和声调；以及获取选自由以下项组成的组的拼音成分映射表：拼音首部映射表、拼音尾部映射表和拼音声调映射表。该计算机实现方法继续使用相应的拼音语音成分映射表将语音值分配给种子单词的文字的拼音发音的所识别的拼音语音成分。而且，该计算机实现方法包括：获取汉语的多个候选单词中的给定候选单词的拼音发音，其中所述多个候选单词和种子单词不同，其中所述候选单词中的给定候选单词由一系列文字组成，其中每个文字具有拼音发音；识别所述候选单词中的给定候选单词的文字的拼音发音的拼音语音成分；以及使用相应的拼音语音成分映射表将语音值分配给文字的拼音发音的所识别的拼音语音成分。对于在种子单词的文字中识别的每种类型的语音成分，该计算机实现方法包括：使用(a)种子单词的文字的所识别的拼音语音成分的分配语音值和(b)候选单词的文字的所识别的拼音语音成分的分配语音值来计算(i)种子单词的文字的所识别的拼音语音成分与(ii)候选单词的文字的所识别的拼音语音成分之间的语音距离；以及确定种子单词和候选单词之间的语音相似度距离，其中语音相似度距离包括计算种子单词和候选单词之间的多个语音距离的总和，每个语音距离表示给定类型的语音成分。另外，该计算机实现方法包括：生成一系列候选单词，其中基于所确定的种子单词与每个候选单词之间的语音相似度距离的值，所述一系列候选单词中的每个候选单词具有与种子单词的拼音发音相似的拼音发音；以及按照所确定的种子单词与每个候选单词之间的语音相似度距离的值的顺序，对具有与种子单词相似的拼音发音的候选单词进行排名。

图1示出了根据一个实施例的架构100。如图1所示，提供了包括第一远程网络104和第二远程网络106的多个远程网络102。网关101可以耦合在远程网络102和邻近网络108之间。在本架构100的情景中，网络104、106各自可以采用任何形式，包括但不限于局域网(LAN)、诸如因特网的广域网(WAN)、公共交换电话网(PSTN)、内部电话网等。

在使用中，网关101充当从远程网络102到邻近网络108的入口点。这样，网关101可以用作能够引导给定数据包到达网关101的路由器和为给定数据包提供进出网关101的实际路径的交换机。

还包括至少一个数据服务器114，其耦合到邻近网络108，并且可以经由网关101从远程网络102访问。应当注意，数据服务器114可以包括任何类型的计算设备/组件。耦合到每个数据服务器114的是多个用户设备116。用户设备116也可以通过网络104、106、108之一直接连接。这样的用户设备116可以包括桌上型计算机、膝上型计算机、手持型计算机、打印机或任何其他类型的逻辑。应当注意，在一个实施例中，用户设备111也可以直接耦合到任何网络。

外围设备120或一系列外围设备120(例如传真机、打印机、联网和/或本地存储单元或系统等)可以耦合到网络104、106、108中的一个或多个。应当注意，数据库和/或附加组件可以与耦合到网络104、106、108的任何类型的网络元件一起使用或集成到其中。在本说明书的上下文中，网络元件可以指网络的任何组件。

根据一些方法，本文描述的方法和系统可以用虚拟系统和/或模拟一个或多个其他系统的系统实现并且/或者在其上实现，模拟一个或多个其他系统的系统例如为模拟IBMz/OS环境的UNIX系统、虚拟地托管MICROSOFT WINDOWS环境的UNIX系统、模拟IBM z/OS环境的MICROSOFT WINDOWS系统等。在一些实施例中，可以通过使用VMWARE软件来增强此虚拟化和/或模拟。

在更多的方法中，一个或多个网络104、106、108可以表示通常被称为“云”的系统集群。在云计算中，诸如处理能力、外围设备、软件、数据、服务器等的共享资源以按需关系提供给云中的任何系统，从而允许跨许多计算系统访问和分发服务。云计算通常涉及在云中操作的系统之间的因特网连接，但是也可以使用其他连接系统的技术。

图2示出了根据一个实施例的与图1的用户设备116和/或服务器114相关联的表示性硬件环境。该图示出了工作站的典型硬件配置，该工作站具有诸如微处理器的中央处理单元210、以及经由系统总线212互连的多个其他单元。

图2所示的工作站包括：随机存取存储器(RAM)214、只读存储器(ROM)216、用于将诸如磁盘存储单元220的外围设备连接到总线212的输入/输出(I/O)适配器218、用于将键盘224、鼠标226、扬声器228、麦克风232和/或其他用户接口设备(例如触摸屏和数字照相机(未示出))连接到总线212的用户接口适配器222、用于将工作站连接到通信网络235(例如，数据处理网络)的通信适配器234、以及用于将总线212连接到显示设备238的显示适配器236。

工作站上可以驻留操作系统，例如Microsoft操作系统(OS)、MACOS、UNIX OS等。应该理解，优选实施例也可以在除上述以外的平台和系操作统上实现。可以使用可扩展标记语言(XML)、C和/或C++语言或其他编程语言以及面向对象的编程方法来编写优选实施例。可以使用面向对象编程(OOP)，它已越来越多地用于开发复杂的应用。

本文所述的各种实施例使用细粒度的语音成分映射表来生成特定语言的候选单词并对其进行排名。语音成分映射表将语言的语音成分(例如，辅音、元音、声调等)编码为可以定义该语言的单词的发音的多维数值点。根据特定语言的发音规则，第n维可以产生特定语言的单词之间的语音相似度的更准确表示。使用语音成分映射表，可以计算要比较的两个单词中相似语音成分的语音距离。

本文描述的各种实施例利用语音相似度算法呈现了针对特定语言的n维语音编码。此外，单词的成分的语音编码允许生成相似单词的列表并按语音进行排名。在一种方法中，计算机实现的程序生成具有与种子单词相似的发音的排名候选单词。可以通过基于n维编码的语音距离度量来测量相似度。

现在参照图3A和图3B，示出了根据一个实施例的用于确定特定语言的两个单词之间的语音距离的方法300的流程图。根据本发明，方法300可以在各种实施例中的尤其是图1-9B中描绘的任何环境中执行。当然，如本领域的技术人员在阅读本说明书时应该理解的，在方法300中可以包括比图3A和图3B中具体描述的操作更多或更少的操作。

方法300的每个步骤可以由操作环境的任何合适的组件来执行。例如，在各种实施例中，方法300可以由计算机或其中具有一个或多个处理器的某一其他设备部分或全部执行。可以在任何设备中利用处理器(例如，以硬件和/或软件实现且优选地具有至少一个硬件组件的处理电路、芯片和/或模块)来执行方法300的一个或多个步骤。示例性处理器包括但不限于中央处理器(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等、其组合、或本领域已知的任何其他合适的计算设备。为了简单起见，并且仅以示例的方式，下面将方法300描述为由计算机执行。

如图3A所示，方法300包括操作302，其中计算机获取特定语言的单词的发音。在一些方法中，可以从计算机上的词典获取单词或单词列表。在一些方法中，可以从远程位置(例如社交媒体、社交服务器等)获取单词或单词列表。在一些方法中，可以从文本脚本获取单词。在其他方法中，单词可以是由语音转文本程序提供的单词。在各种方法中，可以从任何合适的来源获取单词或单词列表，如本领域技术人员将理解的那样。

在一些方法中，可以从词典中获取所提供的单词的发音。该计算机可以从本地计算机访问词典。在其他方法中，词典可以位于计算机的远程位置。该计算机可以访问远程词典以获取单词的发音。

在一些方法中，第一单词(种子单词、给定单词等)的发音可以为一系列符号的形式。在其他方法中，第一单词的发音可以是该单词的数字声音。在另外其他方法中，第一单词的发音可以是该单词的文本版本的形式。这些方法是示例性的，决不是限制性的。

操作304包括计算机识别单词的发音的语音成分，其中语音成分对应于特定语言的语音成分的类型。在一些方法中，通过对应于语言的规则来预定义语音成分。在各种方法中，单词的发音可以包括至少一个唯一语音成分的n个部分。单词发音的数量n的部分可以包括不同类型的语音成分。不同类型的语音成分按照语言规则预定义。在某些语言中，单词发音的每个部分可具有不同类型的语音成分。在某些语言中，单词发音的每个部分可以包括按照语言规则所预定义的多种类型的语音成分。在一些方法中，一种语言可以具有至少两种不同类型的语音成分。

在一些方法中，计算机可以从独立程序接收语言的规则以及与该语言相关联的不同类型的语音成分。在一些方法中，计算机可以从本文描述的语言处理程序接收语言规则和相关的语音成分。在一些方法中，计算机可以从远离计算机的源访问语言规则和相关的语音成分。

方法300的操作306包括获取针对在单词发音中所识别的语音成分的类型的语音成分映射表。在一些方法中，语音成分映射表可以具有多个维度，这些维度由特定语言的语音成分的类型确定。每个维度可以表示语音成分的该类型的语音编码特性。每个维度被划分为多个分区，每个分区对应于由针对语音成分的类型的语言规则定义的语音编码特性的变化。

在一些方法中，语音成分映射表具有至少一个维度。例如，语音成分映射表可以具有两个维度。在另外其他方法中，语音成分映射表可以具有三个维度。在另外其他方法中，语音成分映射表可以具有n个维度，其中n是一个整数，其值最大为与对应语言相关的最大维度数。

在各种方法中，每个维度可以表示语音成分的类型的语音编码特性。例如，但不以任何方式进行限制，语音成分映射表的第一维可以是语音成分的发音，语音映射表的第二维可以是按照特定语言的规则定义的语音成分的咬字。

在一些方法中，每个维度被划分为多个分区，每个分区对应于由针对语音成分的类型的语言规则定义的语音编码特性的变化。在一些方法中，语音成分可以是单词的一部分的特定方面(例如，成分、音节、辅音、元音等)，并且这些语音成分的语音特性可以是发音的变化、相对于语言的特定字母的咬字的变化等。

在各种方法中，可以通过比较单词之间的语音成分在特定于语音成分的语音成分映射表上的位置来比较单词之间的语音成分。

例如，但不以任何方式进行限制，在英语中，可以基于字母的相似发音来确定语音距离。具有相似声音的字母(例如“m”和“n”，“b”和“p”)可以分别在映射表上聚类在一起，并且每个这样的对之间的语音距离可能相对较小。然而，对于具有不同声音的字母(例如“n”和“p”)，它们之间的语音距离会相对较大。此外，辅音和元音不可互换，例如“p”和“o”，因此它们之间的语音距离几乎是无限大的，因为在任何情况下都不会用“p”代替“o”。

在一些方法中，可以从位于计算机的远程位置的源获取针对特定语言的语音成分映射表。在一些方法中，可以以简化形式获取语音成分映射表；此后，在获取和处理单词时，计算机可以使用但不限于机器学习方法来构建语音成分映射表。在一些方法中，计算机可以被编程为启动根据特定语言的规则的规范而建立的唯一的语音成分映射表。

根据一个实施例，可以使用学习方法来形成每个语音成分映射表，以获取特定于在语音成分映射表上表示的语音成分的编码。一种学习方法可以包括分析与标记的数据集相结合的语言特性，该标记的数据集包括具有注释了语音相似度的特定对的已知语音成分的单词对。语音成分之间的注释对的集合可用于学习每个语音成分的n维编码。在其他方法中，注释对可以用于生成单词的语音相似候选以与给定单词进行比较。

语音相似单词对可以用于创建表示语音成分的语音相似度的注释。

在优选方法中，形成语音成分表的学习模型可以扩展到任何n维空间。例如，扩展到超过一维可以通过实际量化语音成分群集的群集间和群集内相似度来产生更准确的编码。在某些语言的情况下，当n＝1时，n维学习模型可能会将坐标空间塌缩为一维。语音成分的预定义群集可能无法在一维空间中很好地对齐，并且许多群集可能会混合在一起。

语音相似单词对可以用于创建表示语音成分的语音相似度的注释。可以使用首部阈值来生成用于比较给定单词(例如，第一单词)的词对的比较；首部阈值可以包括以下特性：每个语音成分映射表上的相似语音成分的距离位置、公用语音成分序列的长度、单词的长度等。

根据比较单词对的列表(从首部应用的阈值生成)，可以应用第二阈值来生成在词之间具有较窄差异的单词对。第二阈值可以包括通过不同的评估方法提供(例如，注释)的单词的部分的编码。例如，第二阈值的第二种评估方法可以包括特定语言的母语者，他们为语音相似度标记一组代表性的单词对。第二阈值可以利用第二评估方法的结果来微调语音辅音映射表，从而相对于与位于相应语音成分映射表上的每个辅音、元音、语音成分等的编码的语音相似度，提供母语者的注释的最佳匹配。以下因素(例如，特性)可能会影响注释：语音成分的位置、单词长度以及语音成分的组合。

这里描述的过程优选地利用机器学习来建立语音成分映射表，其中每个语音成分映射表用于映射唯一的语音成分。由于使用了一个过程来生成相似的候选单词并对其排名，因此将可以按特定语言的特定语音成分划分的单词部分被映射到特定于该特定语言的唯一语音成分的语音成分映射表。

方法300的操作308包括使用语音映射表将语音值分配给单词发音的识别的语音成分。在各种方法中，可以将每种不同类型的语音成分映射到对应于该类型的语音成分的语音成分映射表。在一些方法中，可以根据识别的语音成分在语音成分映射表上的位置，将语音值分配给识别的语音成分。所识别的语音成分的位置可以由语音成分映射表上的每个维度的相应语音编码特性确定。

为了将第一单词的发音与第二单词的发音进行比较，方法300的操作310包括获取特定语言的第二单词的发音，其中第一单词和第二单词不同。在一些方法中，操作310包括获取特定语言的多个第二单词中的给定第二单词的发音。此外，在一些方法中，多个第二单词和第一单词不同。

操作312包括识别第二单词的发音的语音成分。在一些方法中，操作312包括识别多个第二单词中的给定第二单词的发音的语音成分。

操作314包括使用语音成分映射表将语音值分配给所识别的第二单词的语音成分。

操作316包括使用(a)第一单词的所识别的语音成分的所分配的语音值和(b)第二单词的所识别的语音成分的所分配的语音值来计算(i)第一单词的所识别的语音成分与(ii)第二单词的所识别的语音成分之间的语音距离。

在一种方法中，操作316包括计算机基于单词之间的对应语音成分的语音值来比较两个单词的发音。

在一种方法中，在比较第二单词期间，可以将第一单词(例如，种子单词、给定单词等)替换为第二单词(例如，候选单词、比较单词等)，使得作为使用中的短语的一部分，特定的第二单词可以具有更接近的预期发音和/或含义。例如，语音转文本程序中的输入可以将第一个说出的单词指定为第一单词；然而，当将一系列第二单词与第一单词进行比较时，使用本文所述的方法，可以将特定的第二单词按照该单词的预期发音和/或含义排名在第一单词之上，作为输入到程序的短语的一部分。因此，该特定的第二单词可以然后替换最初的第一单词(并且最初的第一单词现在可以被指定为“第二单词”)，并且程序以新的第二单词的列表继续来与新的第一单词进行比较。

在一些方法中，操作316包括根据与所识别的语音成分相对应的语音成分映射表来计算第一单词的每个识别的语音成分的位置与第二单词的对应的语音成分的位置之间的距离。

在一种方法中，方法300的操作318(在图3B中继续)包括与第一单词的所识别的语音成分相关联地存储计算出的语音距离。所存储的计算出的语音距离可以用于确定在第一单词和第二单词的所有语音成分之间的语音相似度距离方面的语音差异。在一些应用中，可以将这些存储的计算出的语音距离作为语音转文本单词程序的单词选项来访问。

在一种方法中，在计算第一单词的所识别的语音成分与第二单词的所识别的语音成分之间的语音距离的操作316之后，方法300继续进行确定第一单词与第二单词之间的语音相似度距离的操作320。在各种方法中，第一单词可以是种子单词、给定单词等，并且可以是最初获取(在操作302中)作为提供用来比较其发音与其他单词的发音的单词，其他单词是第二单词、候选单词、比较单词等。在一些方法中，第二单词可以是被获取用来与第一单词比较发音的一系列第二单词中的一个单词。

在操作320中，语音相似度距离包括计算第一单词和第二单词之间的多个语音距离的总和，每个语音距离表示给定类型的语音成分。

根据一种方法，计算机实现方法可以获取给定单词w和候选单词w’，每个单词包括单词的多个部分c,c’，并且每个第i部分c_i(其中K是部分的总数)可以由例如X、Y、Z等语音成分组成。在某些语言的规则中，可能有两种类型的语音成分。在其他语言的规则中，可能存在三种类型以上的语音成分。在各种方法中，特定语言的规则将定义多种不同类型的语音成分。

可以使用如下公式(例如，作为三对成分之间的距离之和的曼哈顿距离模型)来计算给定单词w的每个部分c_i的发音与候选单词w’的对应部分c’_i之间的语音相似度S)，其中p表示分配的语音值：

例如，使用曼哈顿距离公式作为模型允许独立于其他两个成分来考虑三个语音成分中的每一个。一个成分的任何单一变化不会影响超过一个的成分。影响若干个成分的任何变化都是多次独立的累加变化的结果。可以将两个单词w和w’的相似度计算为每个对应部分的语音距离之和。而且，式1的公式允许比较两个单词之间的任何数量的语音成分的距离，这可以由特定语言定义。式1示出了三个语音成分X,Y和Z，但这仅是示例性的，并不意味着以任何方式进行限制；特定语言可以具有少于三个的语音成分，或者可以具有大于三个的语音成分。

在一种方法中，操作322可以包括将确定的第一单词和第二单词之间的语音相似度距离存储在文件上。该文件可以存储在计算机、外部存储空间、外部驱动器等上。

在一种方法中，操作324包括生成一系列第二单词(例如，候选单词)，其中基于所确定的第一单词和每个第二单词之间的语音相似度距离的值，该系列第二单词中的每个第二单词具有与第一单词相似的发音。

在一些方法中，所生成的第二单词的列表可以在相似度阈值内。可以将相似度阈值设置为生成约5个单词到约100个单词或它们之间的任何范围内的数量的第二单词。在一些方法中，可以将相似度阈值设置为生成在约50个单词至约100个单词的范围内的数量的第二单词。在一些方法中，可以将相似度阈值设置为生成在约20个单词至约50个单词的范围内的数量的第二单词。在其他方法中，可以将相似度阈值设置为生成在约10个至50个单词的范围内的数量的第二单词。这些相似度阈值的范围仅作为示例，并不意味着以任何方式进行限制。

在一种方法中，对于给定单词w，相似度阈值th可以被配置为对于给定单词w将相似语音发音的数量限制在阈值th内。可以使用式1来计算每个候选单词w’(例如，第二单词、比较单词)与给定单词w的相似度。可以将超出相似度阈值th的候选单词w’从候选单词列表中过滤掉。相似度阈值th可以是影响生成的候选的精度和查全率的参数。较大的th可能会生成更多的候选，从而增加查全率，同时降低精度。较小的th可能会以更高的精度生成较少的候选。在各种实施例中，相似度阈值可以由特定语言定义。

方法300的操作326包括按照所确定的第一单词和每个第二单词之间的语音相似度距离的值的顺序，对具有与第一单词相似的发音的第二单词进行排名。在各种方法中，使用语音成分映射表和式1来计算单词之间的语音相似度，可以生成与给定单词(例如，第一单词)相似的一系列候选单词(例如，第二单词)。此外，程序可以根据与给定单词的相似度差异，对具有与给定单词的相似度的该系列候选单词进行排名。

在某些方法中，方法300的操作328包括将排名后的第二单词(具有与第一单词相似的发音)存储在文件、数据库、表格等中。在一些方法中，可以在获取第一单词之后立即考虑排名后的第二单词。在一些方法中，可以立即考虑排名后的第二单词，并且随后将其存储，以经由程序内的机器学习过程来建立数据库。在一些方法中，当获取第一单词的重复实例时，可以从文件访问针对第一单词的排名后的第二单词。在一些方法中，排名后的第二单词可以被认为是第一单词的替换。

在一些方法中，方法300被并入机器学习的过程中以建立针对特定语言的相似单词发音的数据库。在一些方法中，可以在程序中使用排名后的第二单词来确定给定短语中的单词的语法、含义、意义等。

然后，文件、数据库、表格等可以由诸如自动更正过程、拼写检查过程、机器翻译应用、语音识别应用、语音转文本应用、文本输入识别应用等过程和应用程序使用。

汉语

在一种方法中，本文描述的过程可以应用于汉语。拼音是中国的标准汉语的官方罗马化系统，并提供四种变音符号来表示汉语声调。在汉语中，每个单词可以包括一系列书写文字(例如，一个以上的文字)，每个单词的每个文字具有以下拼音语音成分中的至少一个：首部、尾部和声调。在一些方法中，文字的拼音发音可以至少具有首部和声调，而尾部的语音成分可以是可选的。

确定汉语的拼音发音中的单词之间的语音相似度提出了许多挑战。汉语中将一个单词与另一个单词区分开的声音感知上的不同单位(即音素)仅传达有关该单词的部分信息，而书写汉字的最小的有意义的对比单位(即字素)才可传达该单词的其他信息。而且，平均七个汉字可能会共享相同的拼音声音。几个汉字可能具有相似的发音。汉字的语音相似度是通过在固定其他拼音成分的同时改变拼音语音成分而得出的。

如本文所述，每个语音成分可以具有独立的语音映射表。在一种方法中，对于拼音汉语，拼音的每个语音成分(例如，首部、尾部和声调)具有独立的语音映射表。图4A示出了拼音首部的子集的相似度。首部组“z，c”、“zh，ch”、“z，zh”和“zh，ch”都相似，无法使用一维表示来捕获。此外，手动分配单个数值来编码和获得语音相似度无法捕获拼音成分发音的复杂性。例如，“zh＝0，z＝1，c＝2，ch＝3”的编码无法将“zh，ch”对识别为相似的。因此，鉴于确定特定语言中的单词之间的语音相似度的本质，至关重要的是基于尽可能多的经验数据而不是使用手动编码的度量来学习语音成分之间的距离。

在一些方法中，首部的语音成分映射表可以包括两个维度。一个维度可以表示咬字的部位，例如，“zh z j”、“ch c q”、“sh s x”等。第二维度可以表示发音方法，例如“bp”、“dt”、“gk”、“hf”、“nfr”、“jqx”、“zc”、“zh ch”。图4B示出了拼音首部的语音成分映射表的一部分。另一方面，如果首部语音成分映射表仅包含一个维度，则首部将位于单行中，因此，每种声音将非常接近或很可能会彼此集群。因此，用于语音成分映射表的多维提供了成分的语音学的细粒度映射。如图4B所示，语音成分“z”可以具有与具有相似的发音方法的其他语音声音(例如“c”和“s”)相距相对较短距离的位置。而且，在表示咬字的部位的维度中，“z”与语音成分“zh”相距相对较短的距离。此外，“z”可以被映射为相对靠近语音成分“ch”，该声音不比“zh”或“c”更接近“z”，而更靠近位于首部语音成分映射表的其他语音成分。

而且，细粒度的语音成分映射表为映射表上的每个位置提供语音值。例如，在图4B中，给定单词的文字具有首部语音成分“z”，该语音成分可以被映射在部分示出的首部语音成分映射表上并被分配相对值(30.0，1.5)，并且候选单词具有相似的具有首部语音成分“s”的文字，该语音成分已经映射为具有分配的相对值(33.0，1.5)，从而允许使用这些值来量化这两个首部语音成分之间的距离。

在一些方法中，尾部的语音成分映射表包括两个维度，如图4C所示。如图所示，尾部的语音成分映射表的一个维度表示六个基本元音，并且第二维度表示每个元音组的发音方法。在一个维度中，尾部语音成分被划分为六个基本元音(例如a o e i u v)。第二维度可以包括元音的鼻复合音和“a an ang”，以及由汉语的尾部语音成分的规则所定义的其他因素。因此，通过将尾部语音成分映射到细粒度的二维尾部语音成分映射表，可以在共享基本元音、共享押韵元音以及例如鼻辅音“n”或“ng”之后的发音方法方面考虑尾部发音。

此外，可以使用如图4C部分所示的细粒度的尾部语音成分映射表来计算两个单词(具有相似发音的文字)之间的尾部语音成分的比较。例如，给定单词的文字具有尾部语音成分“a”，该语音成分可以被映射在部分示出的尾部语音成分映射表上并被分配相对值(1.0，0.0)，并且候选单词具有相似的具有尾部语音成分“ian”的文字，该语音成分已经映射为具有分配的相对值(0.0，1.0)，从而允许使用这些值来量化这两个尾部语音成分之间的距离。

如本文所述，一种方法允许拼音的三个语音成分被独立地语音比较。例如，尽管首部不同，但是在拼音对{“xie2”，“xue2”}和{“lie2”，“lue2”}中，尾部“ie”和“ue”的语音相似度相同。与此形成鲜明对比的是，英语没有这种特性。例如，在英语中，字母组“ough”在“rough”、“through”和“though”中的发音不同。

然而，取决于首部，相同书写形式的尾部可以表示不同的尾部。例如，在j、q和x之后ü写为u；uo在b，p，m f或w之后写为o。总共有六个拼音书写规则，这些规则可以在本文描述的语音映射表中表示。

例如，考虑汉语的拼音发音的示例，其中每个单词由一系列文字组成，使得每个文字可以由三个语音成分组成：首部、尾部和声调。作为一个示例，两个单词w和w’的拼音是“tong2xie2”和“tong2xue2”，并且每个单词的第一文字之间的距离为零(tong2和tong2)。例如，要计算每个单词的第二文字的语音相似度，可以使用式1的公式：

S(xie2，xue2)＝S_p(x，x)+S_p(ie，ue)+S_T(2，2)

因此，尽管对于每个单词来说，第二文字看上去完全不同，w的xie2与w’的xue2相比，但第二文字的组合距离被计算为仅在拼音尾部S_p(ie，ue)中具有差异。

在一个实施例中，如图3A和图3B所示的方法300可以适用于汉语。现在参照图5，根据一个实施例，示出了处理具有相似发音的汉语单词的方法500的示意图。根据本发明，方法500可以在各种实施例中的尤其是图1-9中描绘的任何环境中执行。当然，如本领域的技术人员在阅读本说明书时应该理解的，在方法500中可以包括比图5中具体描述的操作更多或更少的操作。

方法500的每个步骤可以由操作环境的任何合适的组件来执行。例如，在各种实施例中，方法500可以由计算机或其中具有一个或多个处理器的某一其他设备部分或全部执行。可以在任何设备中利用处理器(例如，以硬件和/或软件实现且优选地具有至少一个硬件组件的处理电路、芯片和/或模块)来执行方法500的一个或多个步骤。示例性处理器包括但不限于中央处理器(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等、其组合、或本领域已知的任何其他合适的计算设备。

如图5所示，方法500包括操作502，其中获取种子单词的拼音发音。该单词可以是从程序获取的给定单词(例如，种子单词、第一单词)。在一些方法中，该单词可以是候选单词，以与具有相似发音的其他单词进行比较。在一些方法中，可以从语音转文本程序获取单词。在一些方法中，具有拼音发音的单词可以由一系列汉语文字组成(例如，该单词可以包括两个文字，该单词可以包括三个文字，等等)。单词的每个文字的拼音发音包含以下语音成分中的至少一个：首部、尾部和声调。

方法500的下一操作包括识别单词的拼音发音的至少一个语音成分。在一些方法中，该操作包括识别单词的文字的拼音发音的至少一个语音成分。如图5所示，操作504a识别给定文字的首部语音成分，操作504b识别给定文字的尾部语音成分，并且操作504c识别给定文字的音调语音成分。

下一个操作包括为由汉语规则定义的每个语音成分获取拼音语音成分映射表。每个语音成分映射表包括至少一个维度以映射文字的语音成分的语音位置的位置。

如图所示，方法500的操作506a包括获取拼音首部语音成分映射表，其中可以基于至少两个维度将文字的每个首部语音成分划分到一个位置。在一些方法中，拼音首部语音成分映射表的一个维度基于首部语音成分的发音，而第二维度基于首部语音成分的咬字。

如图所示，方法500的操作506b包括获取拼音尾部语音成分映射表，其中可以基于至少两个维度将文字的每个尾部语音成分划分到一个位置。在一些方法中，拼音尾部语音成分映射表的一个维度基于尾部语音成分的六个元音(例如，基本元音)，而第二维度基于尾部语音成分的鼻辅音的发音。在一些方法中，操作506b在可能不具有尾部语音成分的文字中可以是可选的。

如图所示，方法500的操作506c包括获取拼音声调语音成分映射表，其中可以基于至少一个维度将文字的每个声调语音成分划分到一个位置。

操作508a包括使用拼音首部语音成分映射表将语音值p^Ic_i分配给每个第i文字的识别的首部语音成分。

操作508b包括使用拼音尾部语音成分映射表将语音值p^Fc_i分配给每个第i文字的识别的尾部语音成分。

操作508c包括使用声调语音成分映射表将语音值p^Tc_i分配给每个第i文字的识别的声调。

方法500的操作510包括获取汉语的多个候选单词(例如，第二单词、比较单词等)之一的拼音发音，其中该候选单词由一系列文字组成。多个候选单词和种子单词不同。候选单词的每个文字都具有拼音发音。操作510还包括：识别候选单词的文字的拼音发音的拼音语音成分，并使用相应的拼音语音成分映射表，将语音值分配给候选单词的文字的拼音发音的识别的拼音语音成分。

对于在种子单词的文字中识别的每种类型的语音成分，操作510包括：使用(a)种子单词的文字的所识别的拼音语音成分的分配语音值和(b)候选单词的文字的所识别的拼音语音成分的分配语音值来计算(i)种子单词的文字的所识别的拼音语音成分与(ii)候选单词的文字的所识别的拼音语音成分之间的语音距离。

操作510继续确定种子单词和候选单词之间的语音相似度距离。语音相似度距离包括计算种子单词和候选单词之间的多个语音距离的总和，每个语音距离表示给定类型的语音成分。

对于每个候选单词，使用种子单词的每个语音成分的语音值和候选单词的每个对应语音成分的语音值，使用以下式2中的公式计算种子单词w的拼音发音与候选单词w_i的拼音发音的语音相似度距离S：

其中，K分别是种子单词和候选单词的文字(例如，部分)c,c’的总数。第i文字c_i，c′_i可以包括以下语音成分中的至少一个：拼音语音成分首部I、拼音语音成分尾部F和拼音语音成分声调T。如式2所示，每个独特语音成分(I,F,T)的语音相似度S_p包括种子单词的第i部分c_i的语音值p与候选单词的第i部分c′_i的对应的语音值p之间的差。

操作512包括生成一系列(例如，一列表、一组等等)的候选单词(例如，第二单词)，其中基于所确定的种子单词与每个候选单词之间的语音相似度距离的值，所述一系列候选单词中的每个候选单词具有与种子单词的拼音发音相似的拼音发音。在一些方法中，所生成的候选单词列表可以在相似度阈值内。在一些方法中，可以将相似度阈值配置为生成在约50个单词至约100个单词的范围内的数量的候选单词。

方法500的操作514包括按照所确定的种子单词与每个候选单词之间的语音相似度距离S的值的顺序，对具有与种子单词w相似的拼音发音的候选单词w’进行排名。在一些方法中，相似度阈值th内的一系列候选单词w’可以按照与种子单词w的相似度差按升序排名。在各种方法中，程序形成在语音上接近种子单词(例如，给定单词、第一单词等)的候选单词(例如，第二单词)的列表，并且候选单词的列表可以根据计算的每个候选单词与种子单词的相似度差，按相似度的升序排名。例如，具有最小相似度距离的单词被排名得更高且更接近种子单词。

如图6中以示例的方式所示，算法600可以用于操作512，以便生成与给定的拼音中文单词(例如，第一单词)相似的拼音中文的候选单词(例如，第二单词)。算法600可以生成具有与给定单词的发音相似的发音的候选单词的列表。

另外，算法600包括根据候选单词中的任何一个与给定单词的语音相似度对该系列候选单词进行排名的操作514。

在一种方法中，对于给定单词w、相似度阈值th和词典dict，可以创建具有在阈值th内与给定单词w相似的语音发音的候选单词w’的列表。

可以使用式1计算每个候选单词w’与给定单词w的相似度。可以将超出相似度阈值th的候选单词w’从候选单词列表中过滤掉。相似度阈值th可以是影响生成的候选的精度和查全率的参数。较大的th可能会生成更多的候选，从而增加查全率，同时降低精度。较小的th可能会以更高的精度生成较少的候选。

评估

将本文描述的方法的一个实施例(即拼音汉语的维度相似度(DS))与常规语言算法进行比较。从社交媒体收集了350个单词，每个单词用1-3个在语音上相似的单词进行注释。社区维护的词典将每个单词的文字映射为拼音语音发音。将DS与Double Metaphone(DM)、ALINE和最小编辑距离(MED)进行了精度(P)、查全率(R)和平均倒数排名(MRR)的比较。y轴表示归一化值，其表示查全率和MRR。

DM方法限于考虑单词拼写、发音和其他杂项特性来对单词进行编码，因此被指定为基线评估。另外，评估包括修改的DM方法，该方法包括本文所述的应用于DM方法的排名方法，以创建第二基线DM排名。第三评估基线包括ALINE方法，该方法基于手动编码的多值咬字特征(根据其相对于特征显著性的相对重要性被加权)来测量语音相似度。MED(第四评估基线)将相似度计算为将一个声音成分变换为另一个声音成分的最小权重系列编辑操作。

本文描述的方法(DS)的有效性

将本文描述的方法DS的一个实施例与DM、DM排名、ALINE和MED进行比较。本文描述的方法在一个维度(n＝1)下评估为DS1，在两个维度(n＝2)下评估为DS2。如图7A所示，与每种基线方法(DM、DM排名和MED)相比，DS2显示提高了的查全率(R)。DM过程是针对英语设计的，因此无法准确反映中文发音。

每种方法的平均倒数排名(MRR)的比较表明，DS2表现优于所有其他方法。使用式1中定义的DS语音距离对DM候选进行排名(DM排名)，将平均MRR提高了5.5倍，但简单的MED基线表现优于它，因此表明DM的粗略编码可能存在固有的问题。尽管ALINE与DS的查全率相似，但在MRR方面DS2表现优于ALINE，这可能是因为直接表示了拼音的复合元音。ALINE使用基本元音的语音特征来测量复合元音之间的距离，这可能会导致不精确。反过来，根据MED方法，MED展示了首部之间不一致的精确语音距离，因为大多数首部的长度为1，并且长度为1的任意两个文字之间的编辑距离都相同。相比而言，DS分别对首部和尾部进行编码；因此，即使是一维编码(DS1)表现也优于其他基线方法。此外，就MRR而言，二维DS表现优于一维DS。

使用每种方法评估候选排名的质量。图7B示出了基线方法与DS在精度和MRR方面的比较。候选排名由具有流利的母语汉语技能的个人评估。注释每个种子单词(其中有100个种子单词)的前5个生成的相似候选单词的质量来进行排名方法之间的比较。通过将候选单词标记为与种子单词相似(1)或不相似(0)，然后将一个候选单词标记为与种子单词的发音最相似(2)来注释候选单词。计算精度，并从每组单词的注释中获取平均MRR。

如图7B所示，在精度和相关MRR方面，DS表现分别优于每种评估的方法ALINE、MED和DM排名。因此，与评估的其他方法相比，DS方法展示了对语音上最相似的候选进行排名的最高精度。

评估多个编码维度

针对对多个维度的语音成分进行编码，评估本文描述的方法DS的一个实施例。如图7A所示，将首部和尾部编码到二维空间比一维空间更有效。图8描绘了继续增加维数n＝3和n＝4的结果。可以观察到，对于能够成功识别单词的所有变化，每个的查全率(R)都是相似的。对于平均MRR，从一维扩展到二维增加了平均MRR。然而，将维数增加到大于2不会显著地提高平均MRR。这些结果表明二维编码足以捕获拼音成分之间的语音关系。

距离阈值th的影响

根据一个实施例，通过将th从2变为4096，检查了相似度距离阈值th对DS方法的影响。图9A示出了在单词数量的阈值th增加的情况下与MRR(实线)相比的查全率(虚线)的结果。y轴表示归一化值。

查看查全率(R)值，随着阈值th的增加，查全率值增加，并且在th达到2048时最终收敛。通过增加th，DS匹配了更多的与给定单词的第一文字相似的文字，这增加了距离内的候选的数量。因此，包括具有最大语音相似度的“金标准”单词的概率增加。

通过增加阈值th，MMR值受到的影响较小。如图9A所示，当th达到128时，MMR值(实线)收敛。然而，对于th<128，生成的候选单词集合太少；因此，为了确保高的查全率和MRR，对于DS方法优选th＝2500。

候选相似单词数量的影响

尽管可能不希望向下游应用呈现太多的候选，但是调整该方法以产生更多的候选相似单词提高了查全率。因此，研究了改变生成的候选相似单词的数量上限的影响，其中n_c从2个变为2048个单词。图9B以归一化值(y轴)示出了随着生成的候选单词的数量n_c(x轴)增加的查全率(R，虚线)和MRR(实线)的趋势。

如图9B所示，MRR收敛于64个候选单词，而查全率直到约256个候选单词才收敛。然而，可以以64个候选单词的上限来设置合理的限制，因为图9B显示了使用64个单词的查全率接近98％。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

而且，根据各种实施例的系统可以包括处理器和与处理器集成和/或可由处理器执行的逻辑，该逻辑被配置为执行本文所述的一个或多个处理步骤。处理器可以具有本文所述的任何配置，例如分立处理器或包括许多组件(例如处理硬件，存储器，I/O接口等)的处理电路。与处理器集成是指，该处理器具有作为硬件逻辑嵌入其中的逻辑，例如专用集成电路(ASIC)、FPGA等。可由处理器执行是指，该逻辑是硬件逻辑；软件逻辑，例如固件、操作系统的一部分、应用程序的一部分；等等，或者处理器可访问并被配置为在处理器执行时使处理器执行某些功能的硬件和软件逻辑的某种组合。如本领域中已知的，软件逻辑可以存储在任何存储器类型的本地和/或远程存储器上。可以使用本领域已知的任何处理器，例如软件处理器模块和/或硬件处理器，例如ASIC、FPGA、中央处理单元(CPU)、集成电路(IC)、图形处理单元(GPU)等等。

将清楚的是，可以以任何方式组合前述系统和/或方法的各种特征，从而从以上呈现的描述中产生多种组合。

将进一步理解，可以以代表客户部署的服务的形式提供本发明的实施例来按需提供服务。

尽管上面已经描述了各种实施例，但是应当理解，它们仅以示例而非限制的方式呈示。因此，优选实施例的广度和范围不应当由任何上述示例性实施例限制，而应当仅根据所附权利要求及其等同物来限定。

Claims

1.一种用于确定特定语言的两个单词之间的语音距离的计算机实现方法，所述计算机实现方法包括：

获取特定语言的第一单词的发音；

识别第一单词的发音的语音成分，其中所述语音成分对应于所述特定语言的语音成分的类型；

获取针对在第一单词的发音中识别的语音成分的类型的语音成分映射表；

使用语音成分映射表将语音值分配给所识别的语音成分；

获取所述特定语言的第二单词的发音，其中第一单词和第二单词不同；

识别第二单词的发音的语音成分；

使用语音成分映射表将语音值分配给第二单词的所识别的语音成分；

使用(a)第一单词的所识别的语音成分的分配语音值和(b)第二单词的所识别的语音成分的分配语音值来计算(i)第一单词的所识别的语音成分与(ii)第二单词的所识别的语音成分之间的语音距离；以及

与第一单词的所识别的语音成分相关联地存储计算出的语音距离。

2.根据权利要求1所述的计算机实现方法，其中所述语音成分映射表具有多个维度，所述维度由所述特定语言的语音成分的类型确定，

其中每个维度表示该类型的语音成分的语音编码特性，

其中每个维度被划分为多个分区，每个分区对应于由针对该类型的语音成分的语言规则定义的语音编码特性的变化。

3.根据权利要求1所述的计算机实现方法，包括：

确定第一单词和第二单词之间的语音相似度距离，

其中所述语音相似度距离包括计算第一单词和第二单词之间的多个语音距离的总和，每个语音距离表示给定类型的语音成分。

4.根据权利要求1所述的计算机实现方法，其中，所述特定语言具有至少两个不同类型的语音成分。

5.根据权利要求4所述的计算机实现方法，其中，每个不同类型的语音成分被映射到与该类型的语音成分相对应的语音成分映射表。

6.根据权利要求4所述的计算机实现方法，其中第一单词的发音具有多个语音成分，其中所述多个语音成分中的每一个是所述特定语言的至少两个不同类型的语音成分中的一个。

7.一种用于对具有与种子单词的发音相似的发音的一系列候选单词进行排名的计算机实现方法，所述计算机实现方法包括：

获取特定语言的种子单词的发音；

识别种子单词的发音的语音成分，其中所述语音成分对应于所述特定语言的语音成分的类型；

获取针对在种子单词的发音中识别的语音成分的类型的语音成分映射表；

使用语音成分映射表将语音值分配给所识别的语音成分；

获取所述特定语言的多个候选单词中的给定候选单词的发音，其中所述多个候选单词和种子单词不同；

识别所述多个候选单词中的所述给定候选单词的发音的语音成分；

使用语音成分映射表将语音值分配给所识别的语音成分；

对于在种子单词中识别的每种类型的语音成分，使用(a)种子单词的所识别的语音成分的分配语音值和(b)候选单词的所识别的语音成分的分配语音值来计算(i)种子单词的所识别的语音成分与(ii)候选单词的所识别的语音成分之间的语音距离；

确定种子单词和候选单词之间的语音相似度距离，其中所述语音相似度距离包括计算种子单词和候选单词之间的多个语音距离的总和，每个语音距离表示给定类型的语音成分；

生成一系列候选单词，其中基于所确定的种子单词与每个候选单词之间的语音相似度距离的值，所述一系列候选单词中的每个候选单词具有与种子单词的发音相似的发音；以及

按照所确定的种子单词与每个候选单词之间的语音相似度距离的值的顺序，对具有与种子单词相似的发音的候选单词进行排名。

8.根据权利要求7所述的计算机实现方法，其中所述语音成分映射表具有多个维度，所述维度由所述特定语言的语音成分的类型确定，

其中每个维度表示该类型的语音成分的语音编码特性，

9.根据权利要求8所述的计算机实现方法，其中根据所识别的语音成分在语音成分映射表上的位置，将语音值分配给所识别的语音成分，

其中所识别的语音成分的所述位置由语音成分映射表上的每个维度的相应语音编码特性确定。

10.根据权利要求7所述的计算机实现方法，其中所述特定语言具有至少两个不同类型的语音成分。

11.根据权利要求7所述的计算机实现方法，其中种子单词的发音由具有至少一个语音成分的部分组成。

12.根据权利要求11所述的计算机实现方法，其中种子单词的发音具有多个部分，其中种子单词的每个部分具有所述特定语言的至少两个不同类型的语音成分。

13.根据权利要求7所述的计算机实现方法，其中所述语音相似度距离S根据以下公式计算：

其中K分别是种子单词和候选单词的部分c,c’的总数，

其中第i部分c_i，c′_i包括语音成分X、Y、Z，

其中语音成分的语音距离S_p包括(a)种子单词的第i部分c_i的语音成分的分配语音值p与(b)候选单词的第i部分c′_i的语音成分的分配语音值p之间的差。

14.根据权利要求7所述的计算机实现方法，其中所生成的一系列候选单词在相似度阈值内。

15.根据权利要求14所述的计算机实现方法，其中所述相似度阈值被设置为生成10个单词到100个单词的范围内的数量的候选单词。

16.根据权利要求7所述的计算机实现方法，其中所述语言是中文。

17.根据权利要求16所述的计算机实现方法，其中中文单词由一系列中文文字组成，每个中文文字具有选自由以下项组成的组的至少一个拼音语音成分：首部、尾部和声调。

18.根据权利要求17所述的计算机实现方法，其中使用以下公式计算种子单词和候选单词之间的所述语音相似度距离：

其中K分别是种子单词和候选单词的部分c,c’的总数，

其中第i部分c_i，c′_i由以下拼音语音成分组成：拼音首部I、拼音尾部F和声调T，

其中每个拼音语音成分的语音距离S_p包括(a)种子单词的第i部分c_i的拼音语音成分的分配语音值p与(b)候选单词的第i部分c′_i的拼音语音成分的分配语音值p之间的差。

19.一种用于对具有与种子单词的发音相似的发音的一系列候选单词进行排名的计算机程序产品，所述计算机程序产品包括具有实现在其上的程序指令的计算机可读存储介质，其中所述计算机可读存储介质本身不是瞬时信号，所述程序指令能够由计算机执行以使计算机执行根据权利要求7-18所述的任一方法。

20.一种用于确定特定语言的两个单词之间的语音距离的计算机程序产品，所述计算机程序产品包括具有实现在其上的程序指令的计算机可读存储介质，其中所述计算机可读存储介质本身不是瞬时信号，所述程序指令能够由计算机执行以使计算机执行根据权利要求1-7所述的任一方法。

21.一种用于确定特定语言的两个单词之间的语音距离的计算机实现的系统，包括：

与计算设备相关联的处理器、计算机可读存储器和计算机可读存储介质；

程序指令，当所述程序指令由所述处理器运行时执行根据权利要求1-18所述的任一方法。

22.一种用于对具有与种子单词的发音相似的发音的一系列候选单词进行排名的计算机实现方法，其中所述候选单词和种子单词属于汉语，所述计算机实现方法包括：

获取汉语的种子单词的拼音发音，其中种子单词由一系列文字组成，其中每个文字具有拼音发音；

识别种子单词的一个文字的拼音发音中的拼音语音成分，其中所述拼音语音成分选自由以下项组成的拼音语音成分组：首部、尾部和声调；

获取选自由以下项组成的组的拼音成分映射表：拼音首部映射表、拼音尾部映射表和拼音声调映射表；

使用相应的拼音语音成分映射表将语音值分配给种子单词的所述文字的拼音发音的所识别的拼音语音成分；

获取汉语的多个候选单词中的一个给定候选单词的拼音发音，其中所述候选单词中的所述给定候选单词由一系列文字组成，其中每个文字具有拼音发音；

识别所述候选单词中的所述给定候选单词的文字的拼音发音的拼音语音成分；

使用相应的拼音语音成分映射表将语音值分配给所述文字的拼音发音的所识别的拼音语音成分；

对于在种子单词的文字中识别的每种类型的语音成分，使用(a)种子单词的文字的所识别的拼音语音成分的分配语音值和(b)候选单词的文字的所识别的拼音语音成分的分配语音值来计算(i)种子单词的文字的所识别的拼音语音成分与(ii)候选单词的文字的所识别的拼音语音成分之间的语音距离；

生成一系列候选单词，其中基于所确定的种子单词与每个候选单词之间的语音相似度距离的值，所述一系列候选单词中的每个候选单词具有与种子单词的拼音发音相似的拼音发音；以及

按照所确定的种子单词与每个候选单词之间的语音相似度距离的值的顺序，对具有与种子单词相似的拼音发音的候选单词进行排名。

23.根据权利要求20所述的计算机实现方法，其中使用以下公式计算种子单词和候选单词之间的语音相似度距离：

其中K分别是种子单词和候选单词的文字c,c’的总数，

其中第i文字c_i，c′_i由以下拼音语音成分组成：拼音首部I、拼音尾部F和拼音声调T，

其中每个拼音语音成分的语音距离Sp包括(a)种子单词的第i文字c_i的拼音语音成分的分配语音值p与(b)候选单词的第i文字c′_i的对应的拼音语音成分的分配语音值p之间的差。