CN108121455B

CN108121455B - 识别纠正方法及装置

Info

Publication number: CN108121455B
Application number: CN201611079157.3A
Authority: CN
Inventors: 吕骋; 王谦; 吴瑞红; 张翔; 刘辉; 刘海铭
Original assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2021-10-26
Anticipated expiration: 2036-11-29
Also published as: CN108121455A

Abstract

本发明提供了一种识别纠正方法及装置，其中，该方法包括：识别用户输入的词句；根据预先配置的文库查找词句中的错别字或错别词，其中，文库至少保存有用于进行错别字或错别词比对的词或者句；获取错别字或错别词对应的拼音或字形；根据文库从拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；使用替换用语替换错别字或错别词。采用上述方案，解决了相关技术中识别用户输入的信息的准确性低的问题，提高了识别用户输入的信息的准确性。

Description

识别纠正方法及装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种识别纠正方法及装置。

背景技术

在目前的服务查询系统中，可能需要用户通过文字或者语音的输入来指示需要查询的内容。然而，在用户进行文字输入时，时常会出现输入的内容存在错别字的情况，在这种情况下，用户输入的内容将失去实际意义。在用户进行语音输入的时候，也经常会出现根据接收到的语音识别出的内容并没有实际意义的情况发生。上述情况导致了识别用户输入的信息的准确性低，从而使得查询出的结果并不是用户想要查询的内容，导致用户体验满意度较低。

针对相关技术中识别用户输入的信息的准确性低的问题，目前还没有有效地解决方案。

发明内容

本发明实施例提供了一种识别纠正方法及装置，以至少解决相关技术中识别用户输入的信息的准确性低的问题。

根据本发明的一个实施例，提供了一种识别纠正方法，包括：识别用户输入的词句；根据预先配置的文库查找所述词句中的错别字或错别词，其中，所述文库至少保存有用于进行错别字或错别词比对的词或者句；获取所述错别字或错别词对应的拼音或字形；根据所述文库从所述拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；使用所述替换用语替换所述错别字或错别词。

可选地，识别所述用户输入的所述词句包括：获取所述用户输入的语音；对所述语音进行识别得到所述语音对应的所述词句。

可选地，识别所述用户输入的所述词句包括：接收所述用户通过输入法直接输入的文本作为所述词句。

可选地，获取所述错别字或错别词对应的拼音或字形包括：判断所述输入法为拼音输入法或字形输入法；在所述输入法为拼音输入法的情况下，获取所述错别字或错别词对应的拼音，在所述输入法为字形输入法的情况下，获取所述错别字或错别词对应的字形。

可选地，在使用所述替换用语替换所述错别字或错别词之后，所述方法还包括：根据所述文库确定替换后得到的词句对应的服务。

根据本发明的另一个实施例，提供了一种识别纠正装置，包括：识别模块，用于识别用户输入的词句；查找模块，用于根据预先配置的文库查找所述词句中的错别字或错别词，其中，所述文库至少保存有用于进行错别字或错别词比对的词或者句；获取模块，用于获取所述错别字或错别词对应的拼音或字形；第一确定模块，用于根据所述文库从所述拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；替换模块，用于使用所述替换用语替换所述错别字或错别词。

可选地，所述识别模块包括：获取单元，用于获取所述用户输入的语音；识别单元，用于对所述语音进行识别得到所述语音对应的所述词句。

可选地，所述识别模块用于：接收所述用户通过输入法直接输入的文本作为所述词句。

可选地，所述获取模块包括：判断单元，用于判断所述输入法为拼音输入法或字形输入法；处理单元，用于在所述输入法为拼音输入法的情况下，获取所述错别字或错别词对应的拼音，在所述输入法为字形输入法的情况下，获取所述错别字或错别词对应的字形。

可选地，所述装置还包括：第二确定模块，用于根据所述文库确定替换后得到的词句对应的服务。

通过本发明，识别用户输入的词句；根据预先配置的文库查找词句中的错别字或错别词，其中，文库至少保存有用于进行错别字或错别词比对的词或者句；获取错别字或错别词对应的拼音或字形；根据文库从拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；使用替换用语替换错别字或错别词，由此可见，采用上述方案根据预先设置的至少保存了用于进行错别字或错别词比对的词或者句的文库从识别出的用户输入的词句中查找出错别字或错别词，从而识别出用户输入的词句中表达含义有误的部分，将这些错别字或错别词转换成对应的拼音或者字形，由于拼音或者字形可以对应更多的词句，从而扩大查找替换用语的范围，再从得到的拼音或者字形对应的一个或者多个用语中确定能够消除错别字或错别词的替换用语，使用确定的替换用语替换上述识别出的错别字或错别词，使得用户输入的内容具有实际的意义，因此，提高了识别用户输入的信息的准确性，从而解决了相关技术中识别用户输入的信息的准确性低的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种识别纠正方法的流程图；

图2是根据本发明实施例的一种识别纠正装置的结构框图一；

图3是根据本发明实施例的一种识别纠正装置的结构框图二；

图4是根据本发明实施例的一种识别纠正装置的结构框图三；

图5是根据本发明实施例的一种识别纠正装置的结构框图四。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

在本实施例中提供了一种识别纠正方法，图1是根据本发明实施例的一种识别纠正方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，识别用户输入的词句；

步骤S104，根据预先配置的文库查找词句中的错别字或错别词，其中，文库至少保存有用于进行错别字或错别词比对的词或者句；

步骤S106，获取错别字或错别词对应的拼音或字形；

步骤S108，根据文库从拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；

步骤S110，使用替换用语替换错别字或错别词。

可选地，上述识别纠正方法可以但不限于应用于终端设备的应用程序中。例如：服务查询类的APP、即时通讯APP等等。

通过上述步骤，识别用户输入的词句；根据预先配置的文库查找词句中的错别字或错别词，其中，文库至少保存有用于进行错别字或错别词比对的词或者句；获取错别字或错别词对应的拼音或字形；根据文库从拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；使用替换用语替换错别字或错别词，由此可见，采用上述方案根据预先设置的至少保存了用于进行错别字或错别词比对的词或者句的文库从识别出的用户输入的词句中查找出错别字或错别词，从而识别出用户输入的词句中表达含义有误的部分，将这些错别字或错别词转换成对应的拼音或者字形，由于拼音或者字形可以对应更多的词句，从而扩大查找替换用语的范围，再从得到的拼音或者字形对应的一个或者多个用语中确定能够消除错别字或错别词的替换用语，使用确定的替换用语替换上述识别出的错别字或错别词，使得用户输入的内容具有实际的意义，因此，提高了识别用户输入的信息的准确性，从而解决了相关技术中识别用户输入的信息的准确性低的问题。

在上述步骤S102中，可以对用户输入的内容进行语义分析，从中提取出用于表达语义的词句作为识别出的用户输入的词句。例如：用户输入“我要听周杰伦的歌曲”，经过语义分析得到用于表达语义的关键要素“听”、“周杰伦”、“歌曲”，并将这三个词语作为识别出的用户输入的关键要素。

在本实施例中，用户输入的词句可以但不限于包括多种不同的形式。例如：语音形式、文本形式、手写形式等等。

在一个示例中，以用户输入的词句为语音形式为例，在上述步骤S102中，可以通过获取用户输入的语音，并对语音进行识别得到语音对应的词句的方式来识别用户输入的词句。例如：用户按着指定按键对着手机的话筒说出“我要听周杰伦的歌曲”，那么通过话筒获取到用户的语音，并对该语音进行识别得到的该语音对应的词句可能是“我要听周结论的歌曲”。

在另一个示例中，以用户输入的词句为文本形式为例，在上述步骤S102中，可以通过接收用户通过输入法直接输入的文本作为词句的方式来识别用户输入的词句。例如：用户通过输入法输入了一串文本“我要听周结论的歌曲”，可以将接收到的文本“我要听周结论的歌曲”作为识别出的词句。

在本示例中，上述输入法可以但不限于包括：拼音输入法或者字形输入法。那么，在上述步骤S106中，可以对输入法的类型进行判断，如果上述输入法为拼音输入法，那么可以获取错别字或错别词对应的拼音，如果上述输入法为字形输入法，那么可以获取错别字或错别词对应的字形。例如：用户通过拼音输入法输入了一串文本“我要听周结论的歌曲”，可以将接收到的文本“我要听周结论的歌曲”作为识别出的词句，根据预先配置的文库查找词句中存在错别词“周结论”，再获取该错别词对应的拼音“zhoujielun”。

需要说明的是，获取错别字或错别词对应的字形的方式与获取错别字或错别词对应的拼音的方式类似，在此不再赘述。

在上述步骤S108中，可以根据获取的拼音或者字形确定该拼音或者字形对应的一个或者多个用语，再根据文库从获取到的一个或者多个用语中确定能够消除错别字或错别词的替换用语。比如，根据文库中存储的用于指示用户操作习惯的信息或者文库中存储的词句的关联信息从获取到的一个或者多个用语中确定能够消除错别字或错别词的替换用语。

下面根据一个示例对上述步骤进行说明和描述。通过对用户输入的词句“我要听周结论的歌曲”的识别，以及根据预先配置的文库对词句中的错别字或错别词“周结论”进行的查找，获取到错别字或错别词对应的拼音“zhoujielun”，文库中存储的用于指示用户操作习惯的信息(例如：该用户查询历史中查询最多的业务为音乐相关的信息)或者文库中存储的词句的关联信息(例如：本词句中包括一个词语为歌曲，与歌曲关联的拼音为“zhoujielun”的词句为“周杰伦”)，从而根据文库中存储的上述内容确定拼音“zhoujielun”对应的能够消除错别字或错别词的替换用语为“周杰伦”。

需要说明的是，从字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语的方式与从拼音对应的一个或多个用语中确定能够消除错别字或错别词的替换用语的方式类似，在此不再赘述。

在一个示例中，在上述步骤S108中，如果拼音或字形对应多个用语，那么可以根据多个用语与词句中其他词语的关联度为用户提供这多个词语的选项，根据用户的选择从多个用语中确定能够消除错别字或错别词的替换用语。例如：计算多个用语与词句中未出错的词语的关联度对应的HASH值，按照HASH值由高到低排列这多个用语，并将其显示至用户界面，获取用户触发的替换用语的选择信息，将该选择信息中携带的用语确定为能够消除错别字或错别词的替换用语。

在上述步骤S110中，使用确定的替换用语来替换识别出的词句中错别字或错别词。例如：在上述示例中，可以用“周杰伦”替换“周结论”，从而将识别出的词句“我要听周结论的歌曲”改写为“我要听周杰伦的歌曲”。从而实现对识别的词句的纠正。

在上述步骤S110之后，还可以根据文库确定替换后得到的词句对应的服务。例如：替换后得到词句“我要听周杰伦的歌曲”，根据文库中存储的知识库确定该词句对应的服务为“为用户播放歌手标签为周杰伦的歌曲”。

实施例2

在本实施例中还提供了一种识别纠正装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的一种识别纠正装置的结构框图一，如图2所示，该装置包括：

识别模块202，用于识别用户输入的词句；

查找模块204，耦合至识别模块202，用于根据预先配置的文库查找词句中的错别字或错别词，其中，文库至少保存有用于进行错别字或错别词比对的词或者句；

获取模块206，耦合至查找模块204，用于获取错别字或错别词对应的拼音或字形；

第一确定模块208，耦合至获取模块206，用于根据文库从拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；

替换模块210，耦合至第一确定模块208，用于使用替换用语替换错别字或错别词。

通过上述装置，识别模块识别用户输入的词句；查找模块根据预先配置的文库查找词句中的错别字或错别词，其中，文库至少保存有用于进行错别字或错别词比对的词或者句；获取模块获取错别字或错别词对应的拼音或字形；第一确定模块根据文库从拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；替换模块使用替换用语替换错别字或错别词，由此可见，采用上述方案根据预先设置的至少保存了用于进行错别字或错别词比对的词或者句的文库从识别出的用户输入的词句中查找出错别字或错别词，从而识别出用户输入的词句中表达含义有误的部分，将这些错别字或错别词转换成对应的拼音或者字形，由于拼音或者字形可以对应更多的词句，从而扩大查找替换用语的范围，再从得到的拼音或者字形对应的一个或者多个用语中确定能够消除错别字或错别词的替换用语，使用确定的替换用语替换上述识别出的错别字或错别词，使得用户输入的内容具有实际的意义，因此，提高了识别用户输入的信息的准确性，从而解决了相关技术中识别用户输入的信息的准确性低的问题。

图3是根据本发明实施例的一种识别纠正装置的结构框图二，如图3所示，可选地，上述识别模块202包括：

获取单元302，用于获取用户输入的语音；

识别单元304，耦合至获取单元302，用于对语音进行识别得到语音对应的词句。

可选地，上述识别模块202用于：接收用户通过输入法直接输入的文本作为词句。

图4是根据本发明实施例的一种识别纠正装置的结构框图三，如图4所示，可选地，上述获取模块206包括：

判断单元402，用于判断输入法为拼音输入法或字形输入法；

处理单元404，耦合至判断单元402，用于在输入法为拼音输入法的情况下，获取错别字或错别词对应的拼音，在输入法为字形输入法的情况下，获取错别字或错别词对应的字形。

图5是根据本发明实施例的一种识别纠正装置的结构框图四，如图5所示，可选地，上述装置还包括：

第二确定模块502，耦合至替换模块210，用于根据文库确定替换后得到的词句对应的服务。

可选地，上述识别模块202用于：接收用户输入的信息；对用户输入的信息进行语义分析；根据语义分析的结果从用户输入的信息提取用于表达语义的词句作为用户输入的词句。

可选地，上述第一确定模块208用于：确定拼音或者字形对应的一个或者多个用语；根据文库中存储的用于指示用户操作习惯的信息或者文库中存储的词句的关联信息从获取到的一个或者多个用语中确定能够消除错别字或错别词的替换用语。

可选地，上述第一确定模块208用于：计算多个用语与词句中未出错的词语的关联度对应的HASH值；按照HASH值由高到低排列这多个用语；显示排列后的多个用语至用户界面；获取用户触发的替换用语的选择信息；将该选择信息中携带的用语确定为能够消除错别字或错别词的替换用语。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述模块分别位于多个处理器中。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

实施例3

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，识别用户输入的词句；

S2，根据预先配置的文库查找词句中的错别字或错别词，其中，文库至少保存有用于进行错别字或错别词比对的词或者句；

S3，获取错别字或错别词对应的拼音或字形；

S4，根据文库从拼音或字形对应的一个或多个用语中确定能够消除错别字或错别词的替换用语；

S5，使用替换用语替换错别字或错别词。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行上述实施例记载的方法步骤。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别纠正方法，其特征在于，包括：

识别用户输入的词句；

根据预先配置的文库查找所述词句中的错别字或错别词，其中，所述文库至少保存有用于进行错别字或错别词比对的词或者句；

获取所述错别字或错别词对应的拼音或字形；

根据所述文库从根据所述词句与所述拼音或字形对应的一个或多个用语的关联性确定的目标用语确定能够消除错别字或错别词的替换用语；

使用所述替换用语替换所述错别字或错别词。

2.根据权利要求1所述的方法，其特征在于，识别所述用户输入的所述词句包括：

获取所述用户输入的语音；

对所述语音进行识别得到所述语音对应的所述词句。

3.根据权利要求1所述的方法，其特征在于，识别所述用户输入的所述词句包括：

接收所述用户通过输入法直接输入的文本作为所述词句。

4.根据权利要求3所述的方法，其特征在于，获取所述错别字或错别词对应的拼音或字形包括：

判断所述输入法为拼音输入法或字形输入法；

在所述输入法为拼音输入法的情况下，获取所述错别字或错别词对应的拼音，在所述输入法为字形输入法的情况下，获取所述错别字或错别词对应的字形。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在使用所述替换用语替换所述错别字或错别词之后，所述方法还包括：

根据所述文库确定替换后得到的词句对应的服务。

6.一种识别纠正装置，其特征在于，包括：

识别模块，用于识别用户输入的词句；

查找模块，用于根据预先配置的文库查找所述词句中的错别字或错别词，其中，所述文库至少保存有用于进行错别字或错别词比对的词或者句；

获取模块，用于获取所述错别字或错别词对应的拼音或字形；

第一确定模块，用于根据所述文库从根据所述词句与所述拼音或字形对应的一个或多个用语的关联性确定的目标用语确定能够消除错别字或错别词的替换用语；

替换模块，用于使用所述替换用语替换所述错别字或错别词。

7.根据权利要求6所述的装置，其特征在于，所述识别模块包括：

获取单元，用于获取所述用户输入的语音；

识别单元，用于对所述语音进行识别得到所述语音对应的所述词句。

8.根据权利要求6所述的装置，其特征在于，所述识别模块用于：

接收所述用户通过输入法直接输入的文本作为所述词句。

9.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

判断单元，用于判断所述输入法为拼音输入法或字形输入法；

处理单元，用于在所述输入法为拼音输入法的情况下，获取所述错别字或错别词对应的拼音，在所述输入法为字形输入法的情况下，获取所述错别字或错别词对应的字形。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述装置还包括：

第二确定模块，用于根据所述文库确定替换后得到的词句对应的服务。