CN109599097B

CN109599097B - 一种同音词定位的方法及装置

Info

Publication number: CN109599097B
Application number: CN201710920327.4A
Authority: CN
Inventors: 邹士杰
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2022-10-18
Anticipated expiration: 2037-09-30
Also published as: CN109599097A

Abstract

本发明公开了一种同音词定位的方法及装置，该方法包括：一方面，依据同音词数据库中包括的同音词对应关系，快速查找到搜索词对应的同音词，并将同音词和搜索词记作目标索引词；另一方面，依据倒排索引库包括的索引词与文字片段的对应关系，以目标索引词作为索引值，获得该目标索引词对应的文字片段，即，定位到包含该目标索引词的目标文字片段。因此，利用同音词数据库和倒排索引库，能够准确、快速的定位到目标文字片段，进而提高对该目标文字片段中包含的搜索词，和/或搜索词的同音词进行纠错的效率。

Description

一种同音词定位的方法及装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种同音词定位的方法及装置。

背景技术

随着语音识别技术的发展，很多应用场景需要采用语音识别技术，将语音转换成文字。以法院的庭审记录为例，传统的方式下，大都采用书记员速记的方式，获得庭审记录，但是，由于人工记录速度比发言人的语速慢，记录内容存在遗漏。而采用语音识别技术，可以将庭审录音转换成文字作为庭审记录，获得庭审记录的速度快，内容全面。

但是，采用语音识别技术进行文字转换时，仅从发音进行文字转换，会存在同音词转换错误的情况。例如：将“异议”错误的转换成“意义”等。因此，需要对转换后所得的文字进行纠错，尤其是纠正转换错误的同音词。从转换后所获得大量的文字中，如何快速的定位转换错误的同音词，成为亟待解决的问题。

发明内容

本发明解决的技术问题在于提供一种同音词定位的方法及装置，从而能够快速准确地定位文字片段中转换错误的同音词，并进行同音词纠错。

为此，本发明解决技术问题的技术方案是：

一种同音词定位的方法，该方法包括：

获取搜索词；

从同音词数据库中，查找所述搜索词的同音词，将所述搜索词和所述同音词作为目标索引词，所述同音词数据库中包括同音词的对应关系；

从倒排索引库中，定位所述目标索引词所属的文字片段作为目标文字片段，所述倒排索引库包括索引词与文字片段的对应关系，一个文字片段包括对该文字片段对应的媒体片段进行语音识别所获得的文字。

可选的，该方法还包括：

显示所述目标文字片段；

播放所述目标文字片段对应的目标媒体片段，用以对所述目标文字片段进行纠错。

可选的，播放所述目标文字片段对应的目标媒体片段包括：

从第一数据库中，查找所述目标文字片段对应的所述目标媒体片段，所述第一数据库包括文字片段与媒体片段的对应关系；

播放所述目标媒体片段。

可选的，播放所述目标文字片段对应的目标媒体片段包括：

从第二数据库中，查找所述目标文字片段对应的所述目标媒体片段的目标播放时刻，所述目标播放时刻包括所述目标媒体片段在媒体文件中播放的起始播放时刻，所述第二数据库包括文字片段与播放时刻的对应关系；

跳转至所述媒体文件中所述目标媒体片段的起始播放时刻，播放所述目标媒体片段。

可选的，上述方法还包括：

对所述目标文字片段纠错后，将所述目标文字片段标记为已纠错。

另外，本发明还提供了一种同音词定位的装置，该装置包括：

获取模块，用于获取搜索词；

查找模块，用于从同音词数据库中，查找所述搜索词的同音词，将搜索词和所述同音词作为目标索引词，所述同音词数据库中包括同音词的对应关系；

定位模块，用于从倒排索引库中，定位所述目标索引词所属的文字片段作为目标文字片段，所述倒排索引库包括索引词与文字片段的对应关系，一个文字片段包括对该文字片段对应的媒体片段进行语音识别所获得的文字。

可选的，该装置还包括：

显示模块，用于显示所述目标文字片段；

播放模块，用于播放所述目标文字片段对应的目标媒体片段，用以对所述目标文字片段进行纠错。

可选的，上述播放模块包括：

第一查找单元，用于从第一数据库中，查找所述目标文字片段对应的所述目标媒体片段，所述第一数据库包括文字片段与媒体片段的对应关系；

第一播放单元，用于播放所述目标媒体片段。

可选的，上述播放模块包括：

第二查找单元，用于从第二数据库中，查找所述目标文字片段对应的所述目标媒体片段的目标播放时刻，所述目标播放时刻包括所述目标媒体片段在媒体文件中播放的起始播放时刻，所述第二数据库包括文字片段与播放时刻的对应关系；

第二播放单元，用于跳转至所述媒体文件中所述目标媒体片段的起始播放时刻，播放所述目标媒体片段。

可选的，上述装置还包括：

标记模块，用于对所述目标文字片段纠错后，将所述目标文字片段标记为已纠错。

此外，本发明还提供了一种存储介质，其上存储有程序，所述程序被处理器执行时，实现所述同音词定位的方法。

另外，本发明还提供了一种处理器，所述处理器用于运行程序，所述程序运行时，执行所述同音词定位的方法。

通过上述技术方案可知，本发明有如下有益效果：

本发明提供了同音词定位的方法及装置，服务器获取到一个搜索词，在同音词数据库中查找该搜索词的对应的同音词，将同音词和搜索词作为目标索引词；根据获得的目标索引词，在倒排索引库中定位包含目标索引词的文字片段。可见，本发明提供的技术方案，一方面，以同音词数据库中包括的同音词对应关系，快速查找到搜索词对应的同音词，并将同音词和搜索词记作目标索引词；另一方面，依据倒排索引库包括索引词与文字片段的对应关系，以目标索引词作为索引值，获得该目标索引词对应的文字片段，即，定位到包含该目标索引词的目标文字片段。因此，利用同音词数据库和倒排索引库，能够准确、快速的定位到目标文字片段，进而提高对该目标文字片段中包含的搜索词，和/或搜索词的同音词进行纠错的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种同音词定位的方法的流程图；

图2是本发明实施例提供的同音词定位方法实现过程的示意图；

图3是本发明实施例提供的一种同音词定位的方法的流程图；

图4a是本发明实施例提供的一种同音词定位显示方法的示意图；

图4b是本发明实施例提供的另一种同音词定位显示方法的示意图；

图5是本发明实施例提供的一种同音词定位的装置的结构图。

具体实施方式

为了给出在文字片段中同音词定位的实现方案，本发明实施例提供了一种同音词定位的方法及装置，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为便于理解本发明实施例描述的技术方案，下面先对本发明实施例涉及的一些背景知识进行介绍。

当今，随着人们生活、工作、学习节奏的加快，为了相应的提高效率，采用录音或者摄像的形式记录生活、工作、学习中的事件，得到的语音文件或者视频文件，称为媒体文件。

在采集到媒体文件后，为了满足存档或者更好的记录、传阅、保存等需求，需要对媒体文件进行语音识别，得到若干个文字片段，按照文字片段对应的媒体片段在该媒体文件中的播放顺序，将所获得的文字片段整理成文档的形式，形成该媒体文件对应的文档文件。

进一步的，还可以获得每个文字片段对应的媒体片段，即在对媒体文件进行语音识别的同时，对该媒体文件进行划分，获得多个媒体片段。一个文字片段，是通过对该文字片段对应的媒体片段进行语音识别获得的。

举例说明，将媒体文件W，包括“我是有意义的，对于生活中的意义到底是什么，大家可以各抒己见。”的一段语音文件，将媒体文件W进行语音识别，得到3个文字片段：文字片段1：“我是有意义的”，文字片段2：“对于生活中的意义到底是什么”，文字片段3：“大家可以各抒己见”。

进一步的，在对媒体文件W进行语音识别的同时，将该媒体文件W划分为3个媒体片段，分别为：文字片段1“我是有意义的”对应的媒体片段a：“我是有意义的”，文字片段2“对于生活中的意义到底是什么”对应的媒体片段b：“对于生活中的意义到底是什么”，文字片段3“大家可以各抒己见”对应的媒体片段c：“大家可以各抒己见”，即，对媒体片段a进行语音识别获得文字片段1，对媒体片段b进行语音识别获得文字片段2，对媒体片段c进行语音识别获得文字片段c。

以庭审为例，通常会获得很多媒体文件，需要将其进行语音识别后获得对应的文档文件，进行存档。但是，语音识别技术并不能够确保转换后的文字片段都准确无误，尤其是文字片段中包含同音词时，该语音识别技术更加容易出现转换错误，导致转换后的文字片段语义不明。因此，需要对录制的媒体文件进行回放，对所有文字片段进行逐一纠错，查找每个文字片段中的同音词，该纠错方法效率低，耗费时间长。

而本发明提供的同音词定位的方法，在对庭审媒体文件转换后的文字片段进行纠错的过程中，工作人员根据需要，输入所要纠错的词语作为搜索词，服务器依据同音词数据库寻找该搜索词对应的同音词，将该搜索词和同音词作为目标索引词，从倒排索引库中，快速准确的定位到包含该目标索引词的多个文字片段。由于采用上述方法所得的多个文字片段存在同音词，工作人员能够对定位到的多个文字片段，同时进行有针对性的纠错，进而，提高了对文字片段纠错的效率和准确率。

为使本发明实施例更加清楚，在上述背景知识描述的基础上，下面对本发明实施例涉及的一些数据库进行介绍。

同音词数据库，用于存储同音词之间的对应关系。先获得多组同音词，一种场景下，可以根据现有的词典，获得读音相同的词语作为一组同音词；另一种场景下，由工作人员在实际工作中，根据工作经验总结读音相同的词语作为一组同音词。获得多组同音词后，建立每组同音词中的多个词语之间的对应关系，并存储在一个数据库中，该数据库即为同音词数据库。

举例说明：存在下述两组同音词，第一组为：意义、异议、意译，第二组为：变换、变幻；在“意义”、“意译”、“异议”之间建立对应关系，在“变换”、“变幻”之间建立对应关系；将两个对应关系存储在该同音词数据库中。

倒排索引库，用于存储索引词与文字片段的对应关系。在倒排索引库的一个倒排索引中，包括一个索引词和一个文字片段，该索引词是该文字片段中存在的一个同音词，该索引词作为该倒排索引的索引值，而该文字片段即为该倒排索引的索引结果。

举例说明：建立倒排索引库的过程为：将媒体文件语音识别转换为文字片段后，将文字片段“我是有意义的”中的同音词“意义”作为索引词，建立一个倒排索引，该倒排索引能够表征“意义”和“我是有意义的”的对应关系，将该倒排索引存储在倒排索引库中。根据建立的倒排索引库，以“意义”为索引值，可以得到索引结果：文字片段“我是有意义的”。

第一数据库，用于存放文字片段与媒体片段的对应关系。一个文字片段，是由该文字片段对应的媒体片段进行语音识别获得的。

举例说明：在对媒体文件W进行语音识别后，获得了3个文字片段和3个媒体片段，其中，文字片段1“我是有意义的”，是媒体片段a“我是有意义的”经过语音识别获得的；文字片段2“对于生活中的意义到底是什么”，是媒体片段b“对于生活中的意义到底是什么”经过语音识别获得的；文字片段3“大家可以各抒己见”，是媒体片段c“大家可以各抒己见”经过语音识别获得的。在第一数据库中存放媒体片段a与文字片段1的对应关系、媒体片段b与文字片段2的对应关系，媒体片段c与文字片段3的对应关系，即，通过该第一数据库，可以依据文字片段1，对应找出媒体片段a；可以依据文字片段2对应找出媒体片段b，可以依据文字片段3对应找到媒体片段c。

第二数据库，用于存储文字片段与播放时刻的对应关系，该播放时刻是该文字片段对应的媒体片段播放时刻。一个文字片段对应的播放时刻，至少包括该文字片段对应的媒体片段在媒体文件中的起始播放时刻；进一步的，还可以包括该文字片段对应的媒体片段在媒体文件中的结束播放时刻。

举例说明：在对媒体文件W进行语音识别后，获得了3个文字片段和3个媒体片段，其中，文字片段1“我是有意义的”，对应的媒体片段a在媒体文件W中的起始播放时刻为0秒；文字片段2“对于生活中的意义到底是什么”，对应的媒体片段b在媒体文件W中的起始播放时刻为3秒；文字片段3“大家可以各抒己见”，对应媒体片段c在媒体文件W中的起始播放时刻为7秒。在第二数据库中存放文字片段1与0秒的对应关系、文字片段2与3秒的对应关系、文字片段3与7秒的对应关系，即，通过该第二数据库，可以依据文字片段1，得到其对应的媒体片段在媒体文件中的起始播放时刻：0秒，依据文字片段2，得到其对应的媒体片段在媒体文件中的起始播放时刻：3秒，依据文字片段3，得到其对应的媒体片段在媒体文件中的起始播放时刻：7秒。

结合以上对于一些基本概念和背景的介绍，下面依据说明书附图对本发明的实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

如图1所示，是本发明实施例提供的同音词定位方法的流程图，包括以下步骤：

步骤101，获取搜索词。

在将媒体文件转换为多个文字片段后，工作人员浏览文字片段，从该文字片段中，找到可以作为搜索词的词语。一种情况下，该工作人员发现某个文字片段中有词语存在转换错误的问题，想要知道是否还有别的文字片段也存在同样的问题，即该词语或者该词语的同音词是否在其它的文字片段中也存在转换错误，此时，工作人员将该词语作为搜索词；另一种情况下，该工作人员浏览到某个词语，发现该词语虽然在这个文字片段中转换正确，但是，该词语存在多个同音词，想要知晓在此次转换中，是否还有包含该词语及其同音词的文字片段，这些文字片段是否出现了转换错误，此时，工作人员将该词语作为搜索词；再一种情况下，工作人员在浏览文字片段之前，根据经验总结易错同音词，即工作中常用且容易出现转换错误的同音词，想了解该易错同音词在文字片段是否存在转换错误，此时，工作人员将总结的易错同音词逐一作为搜索词。

基于此，工作人员将文字片段中已出现，或者可能出现转换错误的词语作为搜索词，在浏览器的搜索框中键入该搜索词，然后浏览器会将该搜索词发送给对应的服务器，服务器获取到该搜索词。具体的，该搜索词是包含同音词的词语。

步骤102，从同音词数据库中，查找所述搜索词的同音词，将所述搜索词和所述同音词作为目标索引词，所述同音词数据库中包括同音词的对应关系。

同音词数据库中存储同音词之间的对应关系。服务器获取到搜索词后，在同音词数据库中，查找与该搜索词具有相同读音的词语，即，搜索词的同音词。

在具体实现时，同音词数据库中包含每组同音词中各个同音词之间的对应关系，因为搜索词是包含同音词的词语，故，服务器根据同音词数据库中同音词的对应关系，能够查找到与该搜索词对应的同音词。查找的方式可以是直接在同音词数据库中查找该搜索词，找到该搜索词所在的那组同音词，该组同音词中除了该搜索词以外，其它所有的同音词都是该搜索词对应的同音词。

例如，工作人员输入搜索词“意义”，服务器获取“意义”后，在同音词数据库中，直接查找“意义”，得到一组同音词“意义、异议、意译”，则该组中除了“意义”之外，“意译”和“异议”都是“意义”的同音词。通过这种实现方式，查找到了搜索词“意义”对应的同音词“异议”和“意译”。

在具体实现时，同音词数据库中包含每组同音词中同音词之间的对应关系，还可以是通过同音词对应同一拼音的方式，建立同音词之间的对应关系。故，服务器查找与该搜索词对应的同音词的方式也可以是：解析搜索词的读音对应的拼音，在同音词数据库中找到该拼音对应的那组词语，即，查找到了该搜索词的同音词。

例如，工作人员输入搜索词“意义”，服务器获取“意义”后，在同音词数据库中，解析“意义”的拼音为“yìyì”，进而查找到读音为“yìyì”的一组同音词“意义、意译、异议”，即查找到了“意义”的同音词“异议”和“意译”。

由于搜索词和同音词，都是容易在转换中出现转换错误的词语，故，服务器将搜索词和同音词作为目标索引词，定位该目标索引词所在的目标文字片段，进行尽可能全面的同音词定位。

通过步骤102中的同音词数据库，可以查找到搜索词对应的所有同音词，为执行步骤103，实现同音词定位打好了数据基础。

步骤103，从倒排索引库中，定位所述目标索引词所属的文字片段作为目标文字片段，所述倒排索引库包括索引词与文字片段的对应关系，一个文字片段包括对该文字片段对应的媒体片段进行语音识别所获得的文字。

倒排索引库中存储着索引词与文字片段的对应关系，一个索引词和一个文字片段构成倒排索引库中的一个倒排索引，其中，索引词是对应的文字片段中存在的一个同音词，将该索引词作为该倒排索引的索引值，可以索引到索引结果——包含该索引词的文字片段。

服务器在得到目标索引词后，在倒排索引库中，定位该索目标引词所属的文字片段，作为目标文字片段。在具体实现时，服务器将各个目标索引词分别作为一个索引值，在倒排索引库中查找包含该索引值的倒排索引，进而可以定位到包含该目标索引词的文字片段。

在一种可能的情况下，对一个目标索引词来说，可以在倒排索引库中定位到一个文字片段，即，在所有的文字片段中，只有一个文字片段的文字内容中包含该目标索引词。在另一种可能的情况下，对一个目标索引词，可以在倒排索引库中定位到多个文字片段，即，在所有的文字片段中，有多个文字片段的文字内容中包含该目标索引词。在又一种可能的情况下，对多个目标索引词，可以在倒排索引库中定位到同一文字片段，即，在一个文字片段中，同时包含该多个目标索引词。在又一种可能的情况下，对一个目标索引词，也可以在倒排索引库中定位不到文字片段，即，在所有的文字片段的文字内容中都不包含该索引词。

举例说明：在庭审中得到的媒体文件A，转换后得到的20个文字片段，若目标索引词为“异议、意义、意译、奕奕”，进行同音词定位的过程如图2所示。显然，定位到5个目标文字片段：“我的意义是让真相水落石出！”、“生活的异议是多样的。”、“大众是没有意义的。”、“这样做的意译何在？”、“我的意译是有意义的。”。

对于目标索引词“意义、异议、意译、奕奕”，首先，进行目标索引词“异议”的定位，则将“异议”作为索引值，在倒排索引库中查找包含“异议”的文字片段，得到1个倒排索引，分别为：“异议”——“生活的异议是多样的。”；即定位到了“异议”对应的1个目标文字片段为“生活的异议是多样的。”，故存在1个索引结果。

然后，同理，进行目标索引词“意义”的定位，得到3个倒排索引，分别为：“意义”——“我的意义是让真相水落石出！”，“意义”——“大众是没有意义的。”，“意义”——“我的意译是有意义的。”；即得到的“意义”对应的3个目标文字片段为“我的意义是让真相水落石出！”、“大众是没有意义的。”、“我的意译是有意义的。”，即存在3个索引结果。

接着，同理，进行目标索引词“意译”的定位，得到2个倒排索引，分别为：“意译”——“这样做的意译何在？”，“意译”——“我的意译是有意义的。”；即得到的“意译”对应的2个目标文字片段为“这样做的意译何在？”、“我的意译是有意义的。”，即存在2个索引结果。

显然，以“意义”和“意译”为索引值，获得相同的索引结果“我的意译是有意义的。”，即2个目标索引词对应同一个索引结果。

最后，同理，进行目标索引词“奕奕”的定位，没有查到对应的倒排索引，即在20个文字片段中，并没有任何文字片段中的文字内容是“奕奕”，即存在0个索引结果。

可见，在上述文字片段中，以4个目标索引词分别作为索引值进行查找时，定位到“异议”的索引结果为1个；“意译”和“意义”的索引结果为2个和3个，“奕奕”的索引结果为0个；共定位到5个目标文字片段。

通过上述对本发明实施例的介绍和举例分析，可知本发明实施例利用同音词数据库和倒排索引库，能够准确、快速的定位到目标文字片段，进而提高对该目标文字片段中包含的搜索词，和/或搜索词的同音词进行纠错的效率。

通过上述对本发明实施例的介绍和举例分析，可知上述技术方案实现了快速、准确的定位包含目标索引词的目标文字片段，基于此，还可以

如图3所示，是本发明实施例提供的同音词定位方法的流程图，包括以下步骤：

步骤301，获取搜索词。

步骤302，从同音词数据库中，查找所述搜索词的同音词，所述同音词数据库中包括同音词的对应关系。

步骤303，以所述同音词为索引，从倒排索引库中，定位所述同音词以及搜索词所属的文字片段作为目标文字片段，所述倒排索引库包括同音词与文字片段的对应关系，一个文字片段包括对该文字片段对应的媒体片段进行语音识别所获得的文字。

上述步骤301-步骤303与图1所示的实施例中的步骤101-步骤103类似，具体实现方式可参见图1所示的实施例中的描述，这里不再赘述。

步骤304，显示所述目标文字片段。

服务器将定位到的目标文字片段返回给浏览器，在浏览器上显示该目标文字片段，供工作人员进行浏览和纠错。在具体实现时，一种显示的方式为：将所有目标文字片段显示在浏览器的同一个区域中。在显示该目标文字片段时，可以仅显示目标文字片段，不显示目标索引词；也可以同时显示目标索引词和目标文字片段。

举例说明，仍以上述庭审中得到的媒体文件A为例，进行目标文字片段的显示，参见图4a，服务器将定位结果反馈给浏览器，在浏览器中，显示一个显示框，该显示框中，一方面，显示所有的目标索引词：“意义、异议、意译”；另一方面，显示基于上述目标索引词查找到的5个目标文字片段：“1、我的意义是让真相水落石出！”、“2、大众是没有意义的。”、“3、这样做的意译何在？”、“4、生活的异议是多样的。”、“5、我的意译是有意义的。”。

在具体实现时，另一种显示的方式为：根据不同的目标索引词进行分区域显示，即，每个目标索引词对应的目标文字片段，显示在浏览器的一个单独的区域中，有几个目标索引词，就分几个区域显示。同理，在一个单独的区域中，可以只显示目标文字片段，不显示目标索引词；还可以同时显示目标文字片段，以及该目标文字片段包含的目标索引词。

举例说明，参见图4b，服务器将定位结果反馈给浏览器，在浏览器中，显示四个不同的显示框，其中，每个显示框中显示一个目标索引词及其对应的目标文字片段。在左上角的显示区域中，显示搜索词“意义”及3个包含“意义”的目标文字片段“1、我的意义是让真相水落石出！”、“2、大众是没有意义的。”、“3、我的意译是有意义的。”；同理，在右上角的显示区域中，显示搜索词“异议”及1个目标文字片段“1、生活的异议是多样的。”；在所下角的显示区域中，显示搜索词“意译”及2个目标文字片段“1、这样做的意译何在？”、“2、我的意译是有意义的。”；在右下角的显示区域中，显示搜索词“意义+意译”及共同的目标文字片段“1、我的意译是有意义的。”。

当然，在实际情况下，不仅限制于上述举例中的4个区域进行显示，可以根据具体的目标索引词的数量而定，一个目标索引词对应于一个显示区域，该目标索引词对应的目标文字片段都显示在该显示区域；也可以根据用户的需求设置不同数量的显示区域，即多个目标索引词对应于一个显示区域，多个目标索引词的目标文字片段显示在该显示区域中；另外，还可以额外设置一个显示区域，该显示区域中的每个目标文字片段，至少包括两个目标索引词。当然，还可以根据实际需要选择其它的显示方式，这里不再赘述。

为了显示的目标文字片段方便工作人员进行纠错，如图4a和4b所示，在目标文字片段中的目标索引词的位置后面，提供对应的“选择”下拉菜单的插件，该下拉插件的下拉菜单中提供该目标索引词对应的所有同音词，供用户选择符合句子语义的正确的词语，优化了工作人员的同音词纠错程序。

以庭审为例，在进行语音识别得到媒体文件对应的文字片段时，仅仅通过文字片段中的语义和语境，难以判断该同音词处到底应该是哪个词语，需要结合该媒体文件中对应的媒体片段，回放媒体片段，根据其中语音信号的语气和语调，进而确定到该同音词处的确定用词。

步骤305，播放所述目标文字片段对应的目标媒体片段，用以对所述目标文字片段进行纠错。

例如，对目标文字片段“这个有意义”，不仅需要进行步骤304中的显示文字片段，而且必须要执行步骤305，对目标文字片段对应的目标媒体片段进行播放，确定该目标文字片段到底是“这个有意义！”还是“这个有异议？”。

可选地，本发明实施例对步骤305如何播放所述目标文字片段对应的目标媒体片段，提供了一种可选地实现方式，包括：

播放所述目标媒体片段。

根据上述对第一数据库介绍可知，第一数据库中包含有文字片段与媒体片段之间的对应关系。那么，基于步骤303和步骤304中，定位和显示的目标文字片段，在第一数据库中查找该目标文字片段对应的媒体片段，即为该目标文字片段对应的目标媒体片段。

查找到目标文字片段对应的目标媒体片段后，在媒体播放器中对目标媒体片段进行播放。例如，对于媒体文件B为例，通过同音词定位，得到的目标文字片段为：“这样做的意译何在！”，在第一数据库中，根据文字片段和媒体片段的对应关系，查找该目标文字片段“这样做的意译何在！”对应的媒体片段，得到目标媒体片段“这样做的意译何在！”的语音文件；使用媒体播放器，直接播放目标媒体片段“这样做的意译何在！”，以便判断该目标媒体片段的语调，对目标文字片段进行纠错。

采用上述目标媒体片段的播放方法，可以根据文字片段快速地找到对应的媒体片段，进而直接播放该目标媒体片段，大大节约了工作人员的时间。

可选地，本发明实施例对步骤305如何播放所述目标文字片段对应的目标媒体片段，提供了另一种可选地实现方式，包括：

根据上述对第二数据库介绍可知，第二数据库中包含有文字片段与播放时刻之间的对应关系，每个文字片段都对应于一个播放时刻，该播放时刻是指文字片段对应的媒体片段在媒体文件中的播放时刻，至少包括媒体片段在媒体文件中播放的起始播放时刻。那么，基于步骤303和步骤304中，定位和显示的目标文字片段，在第二数据库中查找该目标文字片段对应的目标播放时刻，获取该目标播放时刻中的起始播放时刻，从该媒体文件中起始播放时刻所对应的位置开始播放，即实现对目标文字片段对应的目标媒体片段进行播放。

在具体实现时，当目标播放时刻只包括目标媒体片段在媒体文件中播放的起始播放时刻时，从该起始播放时刻开始，播放媒体文件中该起始播放时刻之后的媒体文件，根据工作人员的操作，决定结束播放的时刻。在媒体文件的播放过程中，工作人员进行了手动暂停，则停止对媒体文件继续播放；若工作人员不进行手动暂停，那么会对该媒体文件一直播放，直到该媒体文件全部播放完毕。

举例说明，对于媒体文件B，基于目标索引词查找，得到的目标文字片段为：“这样做的意译何在？”，在第二数据库中，根据文字片段和播放时刻的对应关系，找到该目标文字片段对应的目标播放时刻为：12秒，即目标文字片段对应的目标媒体片段在媒体文件中播放的起始播放时刻为12秒；此时，使用媒体播放器，从媒体文件的第12秒开始，播放该媒体文件12秒之后的媒体内容，直到该媒体文件全部播放完，或者用户按下“暂停”，作为播放结束，实现对媒体文件B中目标文字片段对应目标媒体片段的播放。

在具体实现时，当目标播放时刻包括目标媒体片段在媒体文件中播放的起始播放时刻，以及目标媒体片段在媒体文件中播放的结束播放时刻时，从该起始播放时刻开始，播放该媒体文件，到达该结束播放时刻时，停止播放该媒体文件。播放该媒体文件中上述起始播放时刻到结束播放时刻之间的媒体内容。上述方式，能够自动停止对目标媒体文件的播放，无需人工停止该媒体文件的播放，更便捷。

举例说明，对于媒体文件B，基于目标索引词查找，得到的目标文字片段为：“这样做的意译何在？”，在第二数据库中，根据文字片段和播放时刻的对应关系，找到该目标文字片段对应的目标播放时刻为：12秒至14秒，即，目标媒体片段在媒体文件中播放的起始播放时刻为12秒，目标媒体片段在媒体文件中播放的结束播放时刻为14秒；此时，使用媒体播放器，从媒体文件的第12秒开始，播放该媒体文件12秒之后的媒体内容，直到播放到该媒体文件的第14秒，作为结束，实现对媒体文件B中目标文字片段对应目标媒体片段的播放。

采用上述目标媒体片段的播放方法，可以根据文字片段快速地找到对应的媒体片段在媒体文件中的播放时刻点，进而对媒体文件中的目标媒体片段进行播放，大大节约了用户的时间。

在执行完步骤305之后，实现了对目标媒体文件的播放功能，为后续进行纠错打好了基础。但是，在纠错过后，为了避免不同的用户或者相同用户在不同时间出现重复纠错的问题，需要执行步骤306。

步骤306，对所述目标文字片段纠错后，将所述目标文字片段标记为已纠错。

依据上述步骤，实现对同音词的纠错后，为了避免重复纠错，可以对完成纠错的目标文字片段进行标记，提示用户“已纠错”，或者，在服务器端进行同义词定位时，屏蔽已经标记为“已纠错”的文字片段。

通过上述对本发明实施例的介绍和举例分析，可知，本发明的技术方案一方面，以同音词数据库中包括的同音词对应关系，快速查找到搜索词对应的同音词，并将同音词和搜索词记作目标索引词；另一方面，依据倒排索引库包括索引词与文字片段的对应关系，以目标索引词作为索引值，获得该目标索引词对应的文字片段，即，定位到包含该目标索引词的目标文字片段。因此，利用同音词数据库和倒排索引库，能够准确、快速的定位到目标文字片段，进而提高对该目标文字片段中包含的搜索词，和/或搜索词的同音词进行纠错的效率。

特别地，当步骤101和步骤301中获取的搜索词不是同音词数据库中的词语，则有可能是该搜索词在汉语中没有常见和常用的同音词，或者该同音词数据库中并没有存储该搜索词以及其同音词，工作人员只是根据自己的意愿随意输入的词语。此时，一种可选的实现方式是服务器直接在所有文字片段中查找是否有包含该搜索词的文字片段，如果有，则将对应的文字片段作为该搜索词的定位结果反馈该工作人员，供工作人员进行纠错；如果没有，则通过浏览器向用户显示“此媒体文件转换后的文字中不包含‘XX’”的提示信息。或者，另一种可选的实现方式是服务器直接通过浏览器向用户显示“‘XX’不存在同音词”的提示信息。

例如，当工作人员随机键入“我们”作为搜索词时，服务器获取到“我们”后，在同音词数据库中查找与“我们”读音相同的词语，但是并没有在同音词数据库中找到对应的同音词，此时，服务器直接通过浏览器向用户显示“‘我们’不是同音词”的提示信息。

上文描述本发明提供的方法实施例的技术方案，下面对本发明提供的同音词定位装置进行解释说明。

如图5所示，为本发明实施例提供的一种同音词定位装置的结构示意图，该装置包括：

获取模块501，用于获取搜索词；

查找模块502，用于从同音词数据库中，查找所述搜索词的同音词，将搜索词和所述同音词作为目标索引词，所述同音词数据库中包括同音词的对应关系；

定位模块503，用于从倒排索引库中，定位所述目标索引词所属的文字片段作为目标文字片段，所述倒排索引库包括索引词与文字片段的对应关系，一个文字片段包括对该文字片段对应的媒体片段进行语音识别所获得的文字。

可选地，该装置还包括：

显示模块，用于显示所述目标文字片段；

可选地，所述播放模块包括：

第一播放单元，用于播放所述目标媒体片段。

可选地，所述播放模块包括：

可选地，该装置还包括：

以上是对本发明实施例提供的同音词定位装置的过程介绍，具体实现方式可以参见上文图3所示方法实施例中的描述，这里不再赘述。

通过上述对本发明实施例提供装置的介绍，可知本发明实施例一方面，以同音词数据库中包括的同音词对应关系，快速查找到搜索词对应的同音词，并将同音词和搜索词记作目标索引词；另一方面，依据倒排索引库包括索引词与文字片段的对应关系，以目标索引词作为索引值，获得该目标索引词对应的文字片段，即，定位到包含该目标索引词的目标文字片段。因此，利用同音词数据库和倒排索引库，能够准确、快速的定位到目标文字片段，进而提高对该目标文字片段中包含的搜索词，和/或搜索词的同音词进行纠错的效率。

此外，本发明还提供了一种同音词定位装置，所述同音词定位装置包括处理器和存储器，上述获取模块、查找模块等均作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序模块。内核可以设置一个或以上，通过调整内核参数来准确、快速的定位到目标文字片段，进而提高对该目标文字片段中包含的搜索词，和/或搜索词的同音词进行纠错的效率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制调用所述程序的设备执行所述同音词定位的方法。本文中的设备可以是服务器、PC、PAD、手机等。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行如下操作：

获取搜索词；

可选的，该方法还包括：

显示所述目标文字片段；

可选的，播放所述目标文字片段对应的目标媒体片段包括：

播放所述目标媒体片段。

可选的，播放所述目标文字片段对应的目标媒体片段包括：

可选的，上述方法还包括：

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：

获取搜索词；

可选的，该方法还包括：

显示所述目标文字片段；

可选的，播放所述目标文字片段对应的目标媒体片段包括：

播放所述目标媒体片段。

可选的，播放所述目标文字片段对应的目标媒体片段包括：

可选的，上述方法还包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种同音词定位的方法，其特征在于，所述方法包括：

获取搜索词；

从倒排索引库中，定位所述目标索引词所属的文字片段作为目标文字片段，所述倒排索引库包括索引词与文字片段的对应关系，一个文字片段包括对该文字片段对应的媒体片段进行语音识别所获得的文字，所述目标文字片段为包含所述目标索引词的文字片段。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

显示所述目标文字片段；

3.根据权利要求2所述的方法，其特征在于，所述播放所述目标文字片段对应的目标媒体片段包括：

播放所述目标媒体片段。

4.根据权利要求2所述的方法，其特征在于，所述播放所述目标文字片段对应的目标媒体片段包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述方法还包括：

6.一种同音词定位的装置，其特征在于，所述装置包括：

获取模块，用于获取搜索词；

定位模块，用于从倒排索引库中，定位所述目标索引词所属的文字片段作为目标文字片段，所述倒排索引库包括索引词与文字片段的对应关系，一个文字片段包括对该文字片段对应的媒体片段进行语音识别所获得的文字，所述目标文字片段为包含所述目标索引词的文字片段。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

显示模块，用于显示所述目标文字片段；

8.根据权利要求6-7任意一项所述的装置，其特征在于，所述装置还包括：

9.一种存储介质，其特征在于，其上存储有程序，所述程序被处理器执行时实现如权利要求1至5任一项所述同音词定位的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，所述程序运行时执行如权利要求1至5任一项所述同音词定位的方法。