CN105244027B

CN105244027B - 生成谐音文本的方法和系统

Info

Publication number: CN105244027B
Application number: CN201510547414.0A
Authority: CN
Inventors: 孔醍
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2019-10-15
Anticipated expiration: 2035-08-31
Also published as: CN105244027A

Abstract

本发明提出一种生成谐音文本的方法和系统，该方法包括：获取原始文本的输入信息，所述原始文本是第一语言的文本，所述原始文本的输入信息包括：原始文本的语音信息，和/或，原始文本的文本信息；获取与所述输入信息对应的谐音文本，所述谐音文本是第二语言的文本，所述谐音文本是根据语言模型和语音识别技术获取的；展示所述谐音文本。该方法能够利用语音识别技术自动生成谐音文本，避免人工生成谐音文本方式存在的问题。

Description

生成谐音文本的方法和系统

技术领域

本发明涉及语音处理技术领域，尤其涉及一种生成谐音文本的方法和系统。

背景技术

当用户记忆外文单词时，为了帮助记忆，可以采用谐音助记法，例如reluctant(勉强的)，可以谐音替换为“驴拉坦克”。又如一位中国用户听了一首韩文歌很喜欢想学着唱，却由于不会韩语看不懂原版歌词，如果能提供给这个用户一份中文谐音歌词，则可以方便该用户按这个歌词学唱。为此，在一些场景下，需要根据原始文本生成对应的谐音文本。

现有技术中，通常是采用人工方式进行谐音文本的生成，但是，人工方式无疑在效率、效果等方面都存在问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种生成谐音文本的方法，该方法可以利用语音识别技术自动生成谐音文本，避免人工生成谐音文本方式存在的问题。

本发明的另一个目的在于提出一种生成谐音文本的系统。

为达到上述目的，本发明第一方面实施例提出的生成谐音文本的方法，包括：获取原始文本的输入信息，所述原始文本是第一语言的文本，所述原始文本的输入信息包括：原始文本的语音信息，和/或，原始文本的文本信息；获取与所述输入信息对应的谐音文本，所述谐音文本是第二语言的文本，所述谐音文本是根据语言模型和语音识别技术获取的；展示所述谐音文本。

本发明第一方面实施例提出的生成谐音文本的方法，通过获取原始文本的输入信息，并根据输入信息获取谐音文本，可以利用语音识别技术自动生成谐音文本，避免人工生成谐音文本方式存在的问题。

为达到上述目的，本发明第二方面实施例提出的生成谐音文本的系统，包括：第一获取模块，用于获取原始文本的输入信息，所述原始文本是第一语言的文本，所述原始文本的输入信息包括：原始文本的语音信息，和/或，原始文本的文本信息；第二获取模块，用于获取与所述输入信息对应的谐音文本，所述谐音文本是第二语言的文本，所述谐音文本是根据语言模型和语音识别技术获取的；展示模块，用于展示所述谐音文本。

本发明第二方面实施例提出的生成谐音文本的系统，通过获取原始文本的输入信息，并根据语音信息获取输入文本，可以利用语音识别技术自动生成谐音文本，避免人工生成谐音文本方式存在的问题。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的生成谐音文本的方法的流程示意图；

图2是本发明另一实施例提出的生成谐音文本的方法的流程示意图；

图3是本发明实施例中信息输入界面的示意图；

图4是本发明实施例中信息完成界面的示意图；

图5是本发明实施例中谐音文本的展示界面的示意图；

图6是本发明另一实施例提出的生成谐音文本的系统的结构示意图；

图7是本发明另一实施例提出的生成谐音文本的系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的生成谐音文本的方法的流程示意图，该方法包括：

S11：获取原始文本的输入信息，所述原始文本是第一语言的文本，所述原始文本的输入信息包括：原始文本的语音信息，和/或，原始文本的文本信息。

其中，用户在输入时，可以输入语音信息，或者，文本信息，或者，语音信息和文本信息。

当用户输入语音信息时，例如，对用户采用第一语言朗诵的语音进行录制，得到原始文本的语音信息。如，在需要生成英文单词的谐音文本时，用户可以以英文朗诵该英文单词，系统对用户朗诵的语音进行录制，可以获取该单词的语音信息。或者，

又例如，对用户播放的第一语言的原始文本的语音进行录制，得到原始文本的语音信息。如，用户不知道如何读第一语言的原始文本时，可以触发该原始文本的播放，如在音乐网站点击歌曲的播放，系统对播放的语音进行录制后可以得到原始文本的语音信息。

S12：获取与所述输入信息对应的谐音文本，所述谐音文本是第二语言的文本，所述谐音文本是根据语言模型和语音识别技术获取的。

谐音文本也可以称为空耳。

根据输入信息的不同，可以采用不同方式获取谐音文本。

例如，当输入信息是语音信息时，可以对语音信息进行识别，根据语音识别结果以及预先建立的语言模型获取对应的谐音文本。或者，

又例如，当输入信息是文本信息时，可以根据预先建立的文本信息与谐音文本之间的对应关系，获取与输入的文本信息对应的谐音文本。此时，与文本信息对应的谐音文本可以是一个或多个。例如，对应同一个文本信息，可以预先获取一个或多个用户输入的语音信息，再分别对每个用户输入的语音信息进行语音识别，并根据语音识别结果和语言模型获取与每个用户输入的语音信息对应的谐音文本，由于不同用户可能具有不同的口音，因此，即使对应相同的文本信息，由于不同用户的语音信息可能不同，因此，获取的谐音文本也可能不同，从而可以同一个文本信息对应多个谐音文本。

语言模型可以是预先通过收集大量的语料进行训练得到的，语言模型中例如可以记录文字信息与谐音文本的对应关系。在系统接收到语音信息后，可以通过语音识别技术获取语音信息对应的文字信息，再根据语言模型中记录的文字信息与谐音文本的对应关系，可以获取相应的谐音文本。

以第二语言是中文为例，根据原始文本“Intransigent”的语音信息，可以获取对应的中文的谐音文本是“银川地震”。

另外，对应同一个单词，不同口音的人朗诵的读音不同，使得系统获取的语音信息以及相应的语音识别结果也是不同的，那么即使根据同一个语言模型，由于语音识别结果不同，则获取的谐音文本也可以不同，例如，对于南方口音的用户，获取的“Intransigent”对应的谐音文本可以是“音圈事件”。

另外，系统中预先保存的语言模型可以为多个，每个语言模型可以对应不同的领域，从而得到相应领域的谐音文本。例如，当采用的语言模型是武侠小说领域的语言模型时，“Intransigent”对应的谐音文本可以是“硬闯溪镇塘”。

S13：展示所述谐音文本。

例如，获取到当前用户输入的原始文本的输入信息时，展示时，向当前用户展示输入信息对应的谐音文本。

其中，谐音文本可以是第二语言的文字信息，如中文的文字信息；和/或，谐音文本也可以是第二语言的其他等价书写表示信息，如中文的拼音。或者，当第二语言是日文时，谐音文本可以是日文文字或者日文的罗马字。

另外，谐音文本可以包括如下项中的一项或多项：无语义的谐音文本，如，对应“Intransigent”，谐音文本可以是“音圈事件”，无语义(或无明显语义)；有语义但与原始文本无语义关联的谐音文本，如对应“Intransigent”，谐音文本可以是“银川地震”，谐音文本有语义，但与其原始文本的语义“不妥协的”无语义关联(或无明显语义关联)；有语义且与原始文本有语义关联的谐音文本，如对应“reluctant”，且谐音文本额可以是“驴拉坦克”，谐音文本有语义，且与其原始文本的语义“勉强的”有语义关联。

本实施例中，通过获取原始文本的输入信息，并根据输入信息获取谐音文本，可以利用语音识别技术自动生成谐音文本，避免人工生成谐音文本方式存在的问题。

图2是本发明另一实施例提出的生成谐音文本的方法的流程示意图，本实施例以原始文本是英文单词为例。该方法包括：

S21：当前用户输入一个英文单词的语音信息和文本信息。

例如，系统可以向用户展示信息输入界面，信息输入界面如图3所示，该信息输入界面中包括用于输入语音信息的区域31和用于输入文本信息的区域32，用户可以在用于输入语音信息的区域31上点击按钮触发语音录音，从而输入语音信息，另外，可以在用于输入文本信息的区域32内进行文本输入，从而输入文本信息。

另外，输入语音信息和输入文本信息之后，可以展示如图4所示的信息输入完成界面。假设原始文本是“Esperanto”。

S22：根据语音识别技术和语言模型，获取与当前用户输入的语音信息对应的谐音文本。

其中，语言模型可以有多个，系统可以预设选择规则，从而在多个语言模型中选择一个，并根据选择的语言模型中的文字信息与谐音文本的对应关系，以及，根据对输入的语音信息进行语音识别后，得到的语音识别结果，获取与语音识别结果对应的谐音文本。预设的选择规则例如，根据用户登录信息确定用户身份，根据相应用户的以往用户行为确定用户感兴趣的领域，再选择用户感兴趣的领域的语言模型。

假设与当前用户输入的语音信息对应的谐音文本用空耳J表示。

S23：获取当前用户的关联用户输入的语音信息，并根据语言模型获取与关联用户输入的语音信息对应的谐音文本。

关联用户是指与当前用户输入的文本信息一致的用户，如当前用户是用户A，用户A输入的文本信息是“Esperanto”，则关联用户是指也输入“Esperanto”的其他用户。

另外，关联用户进行语音信息和文本信息输入的方式可以与当前用户相同，如图3或图4所示。

另外，关联用户输入的语音信息是指与当前用户一致的文本信息对应的语音信息，例如，都是针对“Esperanto”的语音信息。

由于不同用户的口音可能不同，因此，即使都对应同一个文本信息“Esperanto”，各个不同用户输入的语音信息也可能不同，即使采用同一个语言模型也可能得到不同的谐音文本。另外，由于不同用户感兴趣的领域可能不同，因此对应不同的用户，选择的语言模型也可能不同，因此也会得到不同的谐音文本。

例如，与关联用户输入的语音信息对应的谐音文本包括：空耳K1、空耳K2和空耳K3。

S24：存储与当前用户输入的语音信息对应的谐音文本，以及与关联用户输入的语音信息对应的谐音文本。

例如，系统将获取的相关谐音文本(空耳J，空耳K1、空耳K2和空耳K3)保存在空耳库内。并且，在保存时可以与文本信息对应保存，如，对应保存：“Esperanto”与{空耳J，空耳K1、空耳K2和空耳K3}。

S25：在当前用户查询谐音文本时，根据当前用户的输入信息获取对应的谐音文本，并返回给当前用户。

例如，参见图4，当用户点击提交后，可以触发查询谐音文本。

在查询谐音文本时，系统可以根据输入信息的不同而采用不同的查询方式。例如，如果用户输入的是语音信息，则可以如S22所示，对语音信息进行语音识别，并根据语音识别结果和语言模型获取谐音文本，之后可以将该谐音文本展示给用户。或者，如果用户输入的是文本信息，则S21-S24可以是在用户查询谐音文本之前预先执行的，通过S21-S24可以实现对应不同用户的谐音文本的预先存储，之后，在用户查询谐音文本时，可以根据空耳库内记录的文本信息与谐音文本之间的对应关系，获取与当前输入的文本信息对应的谐音文本。或者，如果用户输入的是语音信息和文本信息，则可以依照单独输入语音信息的流程或者单独输入文本信息的流程执行。本实施例中，以输入信息包括文本信息时，从空耳库获取谐音文本为例，则可以返回多个谐音文本。

例如，参见图5，向用户展示结果，该界面中包括与当前用户输入的语音信息对应的谐音文本51，还包括：与关联用户输入的语音信息对应的谐音文本52。例如，分别展示与当前用户输入的语音信息对应的谐音文本(空耳J)，以及与关联用户输入的语音信息对应的谐音文本(空耳K1、空耳K2和空耳K3)。

本实施例中，通过获取原始文本的语音信息和/或文本信息，并根据语音信息和/或文本信息获取谐音文本，可以利用语音识别技术自动生成谐音文本，避免人工生成谐音文本方式存在的问题。另外，本实施例保存相关用户的谐音文本，并在用户输入语音信息和/或文本信息时都可以返回相应的谐音文本，可以提供一个整合、记录、查询谐音文本的平台。另外，同一个文本信息的不同谐音文本放在一起，可有效辅助用户记忆学习，另外，也具有一定的趣味性，可以提高用户粘性。

图6是本发明另一实施例提出的生成谐音文本的系统的结构示意图，该系统60包括：第一获取模块61、第二获取模块62和展示模块63。

第一获取模块61，用于获取原始文本的输入信息，所述原始文本是第一语言的文本，所述原始文本的输入信息包括：原始文本的语音信息，和/或，原始文本的文本信息；

其中，用户在输入时，可以输入语音信息、或者，文本信息，或者，语音信息和文本信息。

可选的，所述第一获取模块61用于获取原始文本的语音信息，包括：

对当前用户朗诵的原始文本的语音信息进行录制；或者，

对当前用户触发播放的原始文本的语音信息进行录制。

在获取语音信息和文本信息时，例如，系统可以向用户展示信息输入界面，信息输入界面如图3所示，该信息输入界面中包括用于输入语音信息的区域31和用于输入文本信息的区域32，用户可以在用于输入语音信息的区域31上点击按钮触发语音录音，从而输入语音信息，另外，可以在用于输入文本信息的区域32内进行文本输入，从而输入文本信息。

第二获取模块62，用于获取与所述输入信息对应的谐音文本，所述谐音文本是第二语言的文本，所述谐音文本是根据语言模型和语音识别技术获取的；

谐音文本也可以称为空耳。

根据输入信息的不同，可以采用不同方式获取谐音文本。

可选的，当所述输入信息是语音信息时，所述第二获取模块62具体用于：

对所述语音信息进行语音识别，根据语音识别结果以及预先建立的语言模型，获取与所述语音信息对应的谐音文本。

展示模块63，用于展示所述谐音文本。

图7是本发明另一实施例提出的生成谐音文本的系统的结构示意图，该系统70包括：第一获取模块71、第二获取模块72和展示模块73。这三个模块的功能可以参见上一实施例。

本实施例中，当所述输入信息是文本信息时，所述第二获取模块72具体用于：

根据预先获取的文本信息与谐音文本之间的对应关系，获取与输入的文本信息对应的一个或多个谐音文本，其中，所述谐音文本是根据一个或多个用户输入的语音信息获取的。

相应的，该系统还可以包括：关联模块74，用于获取至少一个用户输入的文本信息和文本信息对应的语音信息；对所述至少一个用户输入的语音信息进行语音识别，根据语音识别结果以及预先建立的语言模型，分别获取与每个用户输入的语音信息对应的谐音文本；建立文本信息与根据每个用户输入的语音信息获取的谐音文本之间的对应关系。

例如，当输入信息是文本信息时，可以根据预先建立的文本信息与谐音文本之间的对应关系，获取与输入的文本信息对应的谐音文本。此时，与文本信息对应的谐音文本可以是一个或多个。例如，对应同一个文本信息，可以预先获取一个或多个用户输入的语音信息，再分别对每个用户输入的语音信息进行语音识别，并根据语音识别结果和语言模型获取与每个用户输入的语音信息对应的谐音文本，由于不同用户可能具有不同的口音，因此，即使对应相同的文本信息，由于不同用户的语音信息可能不同，因此，获取的谐音文本也可能不同，从而可以同一个文本信息对应多个谐音文本。

其中，上述的对应关系可以保存在空耳库内，空耳库内的谐音文本是根据当前用户与关联用户输入的语音信息确定的。关联用户是指与当前用户输入的文本信息一致的用户，如当前用户是用户A，用户A输入的文本信息是“Esperanto”，则关联用户是指也输入“Esperanto”的其他用户。

另外，该系统还可以存储与当前用户输入的语音信息对应的谐音文本，以及与关联用户输入的语音信息对应的谐音文本。例如，系统将获取的相关谐音文本(空耳J，空耳K1、空耳K2和空耳K3)保存在空耳库内。并且，在保存时可以与文本信息对应保存，如，对应保存：“Esperanto”与{空耳J，空耳K1、空耳K2和空耳K3}。

相应的，展示模块展示的谐音文本可以为一个或多个。例如，参见图5，向用户展示结果，该界面中包括与当前用户输入的语音信息对应的谐音文本51，还包括：与关联用户输入的语音信息对应的谐音文本52。例如，分别展示与当前用户输入的语音信息对应的谐音文本(空耳J)，以及与关联用户输入的语音信息对应的谐音文本(空耳K1、空耳K2和空耳K3)。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种生成谐音文本的方法，其特征在于，包括：

获取原始文本的输入信息，所述原始文本是第一语言的文本，所述原始文本的输入信息包括：原始文本的语音信息，和/或，原始文本的文本信息；

获取与所述输入信息对应的谐音文本，所述谐音文本是第二语言的文本，所述谐音文本是根据语言模型和语音识别技术获取的，其中，所述语言模型中记录了文本信息与谐音文本的对应关系，所述语言模型为多个，每个语言模型对应不同的领域，语言模型根据预设选择规则选择，根据选择的不同领域的语言模型获取相应领域的多个谐音文本，其中，所述预设选择规则为根据用户登录信息确定用户身份，根据用户身份对应的用户行为信息确定用户感兴趣的领域，根据用户感兴趣的领域选择语言模型；

展示相应领域的所述多个谐音文本。

2.根据权利要求1所述的方法，其特征在于，当所述输入信息是语音信息时，所述获取与所述输入信息对应的谐音文本，包括：

3.根据权利要求1所述的方法，其特征在于，当所述输入信息是文本信息时，所述获取与所述输入信息对应的谐音文本，包括：

根据预先获取的文本信息与谐音文本之间的对应关系，获取与输入的文本信息对应的多个谐音文本，其中，所述谐音文本是根据一个或多个用户输入的语音信息获取的。

4.根据权利要求3所述的方法，其特征在于，还包括：

获取至少一个用户输入的文本信息和文本信息对应的语音信息；

对所述至少一个用户输入的语音信息进行语音识别，根据语音识别结果以及预先建立的语言模型，分别获取与每个用户输入的语音信息对应的谐音文本；

建立文本信息与根据每个用户输入的语音信息获取的谐音文本之间的对应关系。

5.根据权利要求1-4任一项所述的方法，其特征在于，获取原始文本的语音信息，包括：

对当前用户朗诵的原始文本的语音信息进行录制；或者，

对当前用户触发播放的原始文本的语音信息进行录制。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述谐音文本包括：第二语言的文字信息，和/或，第二语言的其他等价书写表示信息。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述谐音文本包括如下项中的至少一项：

无语义的谐音文本、有语义但与原始文本无语义关联的谐音文本、有语义且与原始文本有语义关联的谐音文本。

8.一种生成谐音文本的系统，其特征在于，包括：

第一获取模块，用于获取原始文本的输入信息，所述原始文本是第一语言的文本，所述原始文本的输入信息包括：原始文本的语音信息，和/或，原始文本的文本信息；

第二获取模块，用于获取与所述输入信息对应的谐音文本，所述谐音文本是第二语言的文本，所述谐音文本是根据语言模型和语音识别技术获取的，其中，所述语言模型中记录了文本信息与谐音文本的对应关系，所述语言模型为多个，每个语言模型对应不同的领域，语言模型根据预设选择规则选择，根据选择的不同领域的语言模型获取相应领域的多个谐音文本，其中，所述预设选择规则为根据用户登录信息确定用户身份，根据用户身份对应的用户行为信息确定用户感兴趣的领域，根据用户感兴趣的领域选择语言模型；

展示模块，用于展示相应领域的所述多个谐音文本。

9.根据权利要求8所述的系统，其特征在于，当所述输入信息是语音信息时，所述第二获取模块具体用于：

10.根据权利要求8所述的系统，其特征在于，当所述输入信息是文本信息时，所述第二获取模块具体用于：

11.根据权利要求10所述的系统，其特征在于，还包括：

关联模块，用于获取至少一个用户输入的文本信息和文本信息对应的语音信息；对所述至少一个用户输入的语音信息进行语音识别，根据语音识别结果以及预先建立的语言模型，分别获取与每个用户输入的语音信息对应的谐音文本；建立文本信息与根据每个用户输入的语音信息获取的谐音文本之间的对应关系。

12.根据权利要求8-11任一项所述的系统，其特征在，所述第一获取模块用于获取原始文本的语音信息，包括：

对当前用户朗诵的原始文本的语音信息进行录制；或者，

对当前用户触发播放的原始文本的语音信息进行录制。