CN109299471B

CN109299471B - 一种文本匹配的方法、装置及终端

Info

Publication number: CN109299471B
Application number: CN201811308423.4A
Authority: CN
Inventors: 吴朋书; 许晓平; 洪湧明
Original assignee: Guangzhou Baitian Information Technology Co ltd
Current assignee: Guangzhou Baitian Information Technology Co ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2022-12-27
Anticipated expiration: 2038-11-05
Also published as: CN109299471A

Abstract

本申请公开了一种文本匹配的方法、装置及终端，涉及语音识别技术领域，该方法包括：将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串；利用字符拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次；若频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本。该方法很大程度还原了语音识别文本中包含的发音者原来的读音信息，对语音识别设备的识别错误情况有极高的意图还原能力，容错性高，进而提升了后续文本匹配的准确性和匹配效率。

Description

一种文本匹配的方法、装置及终端

技术领域

本申请涉及语音识别技术领域，特别涉及一种文本匹配的方法、装置及终端。

背景技术

目前，语音识别技术已经被各种硬件和软件载体广泛使用。例如：在小米公司的小爱同学系统、百度公司的DuerOS等平台上开发语音交互技能或语音加屏幕交互技能。当前对于语音识别后的文本与各备选项文本匹配时，都是直接利用系统返回的识别后文本与各备选项文本进行文本匹配和同音字匹配。

但是，由于存在发音者因素(普通话读音不准等)、环境因素(嘈杂背景)、设备因素(麦克风收音能力差)等因素，会造成系统错误识别，回传给服务器错误的文本，例如：发声者说“第一项”被识别为“腋下”、说“牛腩”被识别位“留白”等。也就是说用于与备选项文本匹配的语音识别文本是不准确的，进而造成后续匹配结果的不准确及不可控。

发明内容

本申请的目的是提供一种文本匹配的方法、装置及终端，能够很大程度还原了语音识别文本中包含的发音者原来的读音信息，对语音识别设备的能力依赖性低，进而提升了后续文本匹配的准确性。

为解决上述技术问题，本申请提供一种文本匹配的方法，包括：

将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串；

利用字符拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各所述预设备选项文本字符单元组；

分别计算所述语音识别文本字符单元组与各所述预设备选项文本字符单元组之间相同字符单元出现的频次；

若所述频次中的最大频次值大于设定匹配阈值时，将所述最大频次值对应的预设备选项文本作为匹配文本。

可选地，所述方法还包括：

将所述语音识别文本以及所述预设备选项文本中的数字替换为对应的汉字文本。

可选地，所述将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串，包括：

当所述语音识别文本以及所述预设备选项文本包含多音字时，将包含多音字的文本利用pinyin4j算法分别转换为多音字的每个音对应的拼音字符串；

当所述语音识别文本以及所述预设备选项文本不包含多音字时，将不包含多音字的文本利用所述pinyin4j算法转化为对应的拼音字符串。

可选地，所述利用字符拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各所述预设备选项文本字符单元组，包括：

利用声韵母拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各所述预设备选项文本字符单元组。

可选地，所述利用声韵母拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各所述预设备选项文本字符单元组，包括：

将各所述拼音字符串按照声母和韵母结构进行拆分，得到语音识别文本字符单元组和各所述预设备选项文本字符单元组；或，

将各所述拼音字符串按照声母、单韵母以及鼻音对结构进行拆分，得到语音识别文本字符单元组和各所述预设备选项文本字符单元组。

可选地，分别计算所述语音识别文本字符单元组与各所述预设备选项文本字符单元组之间相同字符单元出现的频次，包括：

分别将所述语音识别文本字符单元组与各所述预设备选项文本字符单元组之间相同字符单元出现的数量除以对应预设备选项文本字符单元组的单元数得到正向频次；和/或，

分别将所述语音识别文本字符单元组与各所述预设备选项文本字符单元组之间相同字符单元出现的数量除以所述语音识别文本字符单元组的单元数得到反向频次。

可选地，当所述频次为正向频次时，若所述频次中的最大频次值大于设定匹配阈值时，将所述最大频次值对应的预设备选项文本作为匹配文本，包括：若所述正向频次中的最大正向频次值大于设定正向匹配阈值时，将所述最大正向频次值对应的预设备选项文本作为匹配文本；

当所述频次为反向频次时，若所述频次中的最大频次值大于设定匹配阈值时，将所述最大频次值对应的预设备选项文本作为匹配文本，包括：若所述反向频次中的最大反向频次值大于设定反向匹配阈值时，将所述最大反向频次值对应的预设备选项文本作为匹配文本；

当所述频次为正向频次和反向频次时，若所述频次中的最大频次值大于设定匹配阈值时，将所述最大频次值对应的预设备选项文本作为匹配文本，包括：判断所述正向频次中的最大正向频次值是否大于设定正向匹配阈值，若所述最大正向频次值大于所述设定正向匹配阈值，将所述最大正向频次值对应的预设备选项文本作为匹配文本；若所述最大正向频次值不大于所述设定正向匹配阈值，则判断所述反向频次中的最大反向频次值是否大于设定反向匹配阈值，若所述最大反向频次值大于所述设定反向匹配阈值，将所述最大反向频次值对应的预设备选项文本作为匹配文本。

可选地，若所述频次中的最大频次值不大于设定匹配阈值时，还包括：

将所述语音识别文本字符单元组以及各所述预设备选项文本字符单元组按照预设模糊替换规则进行字符单元的替换生成新的语音识别文本字符单元组以及各预设备选项文本字符单元组后，执行所述分别计算所述语音识别文本字符单元组与各所述预设备选项文本字符单元组之间相同字符单元出现的频次的步骤。

本申请还提供一种文本匹配的装置，包括：

转换模块，用于将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串；

拆分模块，用于利用字符拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各所述预设备选项文本字符单元组；

频次计算模块，用于分别计算所述语音识别文本字符单元组与各所述预设备选项文本字符单元组之间相同字符单元出现的频次；

匹配模块，用于若所述频次中的最大频次值大于设定匹配阈值时，将所述最大频次值对应的预设备选项文本作为匹配文本。

本申请还提供一种终端，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述所述文本匹配的方法的步骤。

本申请所提供的文本匹配的方法，包括：将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串；利用字符拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次；若频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本。

可见，该方法将获取的语音识别设备翻译得到的语音识别文本转换为拼音字符串文本，以还原语音识别文本中包含的发音者原来的读音信息，进而对包含该发音者原来的读音信息的拼音字符串按照字符拆分规则进行拆分得到语音识别文本字符单元组，对该语音识别文本字符单元组与各预设备选项文本字符单元组进行匹配可以得到发音者期望得到的备选项，提高了文本匹配准确率，且对语音识别设备的识别错误情况有极高的意图还原能力，容错性高，大大降低了对语音识别设备的语音识别能力的依赖。本申请还提供了一种文本匹配的装置、终端及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的文本匹配的方法的流程图；

图2为本申请实施例所提供的另一文本匹配的方法的流程图；

图3为本申请实施例所提供的文本匹配的装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在对于语音识别后的语音识别文本与各备选项文本进行匹配时，都是利用系统返回的识别后文本直接与各备选项文本进行文本匹配。因此后续两者匹配的准确性依赖于执行语音识别的语音识别设备的识别准确性。一旦发音者存在发音不准等问题或者设备接收到的语音信息存在接收能力差或者语音识别设备中翻译系统对语境理解不准确等，都会造成语音识别设备识别得到的语音识别文本存在识别错误。而后续进行语音识别文本与各备选项文本进行匹配时所依赖的数据源(语音识别文本)都存在错误，进而得到的识别结果就会出错。这是由于上述原因，导致目前进行语音识别文本与各备选项文本进行匹配时的匹配准确率很低。本申请就是为了解决上述问题，提供了一种文本匹配的方法、装置、终端及计算机可读存储介质。

本实施例并不对该方法具体的应用场景进行限定，例如应用场景可以是互动技能提供了有限选项的提问，发音者通过声音回答后，识别发音者意图选择的备选项即人与人工智能载体设备进行语音交互的场景。该方法的具体执行过程请参考图1，图1为本申请实施例所提供的文本匹配的方法的流程图；该方法可以包括：

步骤S110、将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串。

需要说明的是，本实施例中并不对获取语音识别文本的方式进行限定。例如可以是通过接口接收语音识别文本；也可以是通过网络接收语音识别文本；当然也可以是通过对采集的发音者的语音信息进行语音识别得到语音识别文本。可以理解的是，本实施例中并不对获取预设备选项文本的方式进行限定。例如可以是通过接口接收预设备选项文本；也可以是通过网络接收预设备选项文本；当然也可以是从存储中直接获取的预先存储的预设备选项文本。进一步，本实施例中也不会对预设备选项文本的数量进行限定。其与用户的实际应用场景相关。例如可以是多个，当然也可以只有一个。

具体的，本步骤的主要目的是为了同时将语音识别文本以及预设备选项文本转化为对应的拼音字符串。即将语音识别文本转换为拼音字符串，将每一个预设备选项文本均转化为一个对应的拼音字符串。可以理解的是，当每个文本均转化为一个拼音字符串时，最后得到的拼音字符串的数量与文本的数量相等。

本实施例中之所以要将语音识别文本转化为对应的拼音字符串的目的是为了还原语音识别文本中包含的发音者原来的读音信息。例如当发音者想说的是二，但是语音识别翻译后得到的文本是儿；可以清楚地看到这两个文字的含义差别很大。语音识别设备识别错误的原因很多，可能是用户读音的问题，也有可能是语境的问题等。但是此时可以看到这两个字对应的拼音均是er，也就是说两个字的拼音是一样的。可见，通过将语音识别文本转化为对应的拼音字符串能够还原语音识别文本中包含的发音者原来的读音信息。基于此进行后续的匹配可以提高文本匹配的准确率。本实施例中之所以要将预设备选项文本转化为对应的拼音字符串的目的是为了便于与语音识别文本进行后续的匹配。

本实施例中并不对文本(此处的文本是指语音识别文本以及预设备选项文本，后续出现的文本也是这个含义)转化为拼音字符串的具体方式进行限定，只要可以实现文字到拼音的转换即可。例如可以是pinyin4j算法。进一步，本实施例中可以直接将获取的语音识别文本以及预设备选项文本转换为拼音字符串。当然也可以是将获取的语音识别文本以及预设备选项文本按照预设规则先转换为一个统一的格式后，再将统一格式的语音识别文本转换为拼音字符串。本实施例并不对预设规则的具体内容进行限定。一般情况下，通过预设规则将获取的语音识别文本以及预设备选项文本先转换为一个统一的格式能够提高后续文本匹配的准确率。例如，将语音识别文本以及预设备选项文本中的各种字符均转换为对应的汉字文本，以使整个语音识别文本以及预设备选项文本字符形式统一。具体例如将阿拉伯数字转换为对应的汉字。

本实施例中为了提高语音识别文本以及预设备选项文本转化为对应的拼音字符串的可靠性，以保证最大可能的还原语音识别文本中包含的发音者原来的读音信息。优选的，本实施例中还可以包括：将语音识别文本以及预设备选项文本中的数字替换为对应的汉字文本。即将语音识别文本以及预设备选项文本中数字替换为对应的汉字，例如文本具体内容为：我家住在202单元。此时将文本中的数字替换为对应的汉字文本后得到的文本具体内容为：为：我家住在二零二单元。

本实施例中并不对数字具体的替换方式进行限定。例如可以仅仅是利用零、一、二、三、四、五、六、七、八、九以及十来替换对应的0、1、2、3、4、5、6、7、8、9、10。也可以是将包含2的文本不仅替换为二对应的文本，同时还要替换为两对应的文本。当然由于一串数字在不同的场景下，发音者读的方式可能不同。例如，202在上述环境下，发音者会读成二零二，但是在价格的环境下，发音者会读成二百零二。因此为了最大可能的还原语音识别文本中包含的发音者原来的读音信息，本实施例中还可以设定一定规则，在遇到数字时尽可能的多生成几个可能的文本。例如，遇到2235可以替换为:二千二百三十五、二二三五、两千两百三十五，其中二千二百三十五和两千两百三十五认为是带单位的替换，二二三五是不带单位的替换。进一步，为了在保证最大可能的还原语音识别文本中包含的发音者原来的读音信息的情况下，考虑到实际处理效率以及后续的匹配效率。此时也可以是设定替换条件，即设定各个情况下使用的替换方式。例如，当数字串的位数大于预设位数值时，可以按照上述三种情况转换(即按照带单位以及不带单位的方式进行替换)，当数字串的位数不大于预设位数值时，可以仅按照零、一、二、三、四、五、六、七、八、九以及十的替换方式来替换(即不带单位的替换)。本实施例提供一种具体的将文本中的数字替换为对应的汉字文本的方式：

提取语音识别文本以及预设备选项文本中的数字；

判断数字的位数是否大于预设位数值；

若不大于预设位数值，则将数字分别替换为不带单位的汉字文本以及带单位的汉子文本，且当数字中存在2时，再替换一个两的汉字文本；

若大于预设位数值，则将数字替换为不带单位的汉字文本。

具体的，由于执行的具体的替换方式不同，因此本实施例并不限定包含数字的文本在执行数字替换后得到的替换后的文本数量。例如在不大于预设位数值时，替换文本中的数字可以得到该文本对应的三个替换文本。在大于预设位数值时，替换文本中的数字可以得到该文本对应的一个替换文本。针对替换后得到的各个文本，都会分别执行后续的转化为对应的拼音字符串的操作。可以理解的是在不大于预设位数值时，替换文本中的数字可以得到该文本对应的三个替换文本，相应的也就会得到三个拼音字符串。例如语音识别文本具体为：我有2235。此时替换后得到的三个语音识别文本具体为：我有二千二百三十五、我有二二三五、我有两千两百三十五。这三个替换后的语音识别文本都会被转换为各自对应的拼音字符串，也就是说此时语音识别文本对应了三个拼音字符串。即通过生成多种可能的文本来尽可能还原发音者原来的读音信息。需要注意的是，当包含数字的文本为多个时，可以逐个执行上述替换过程，也可以是并行执行上述替换过程。本实施例对此并不进行限定。

本实施例中将语音识别文本以及预设备选项文本转化为对应的拼音字符串时可以直接按照文本中的字直接去转换，当然也可以是按照文本中的字的每种读音去转换。例如，当文本中存在多音字时，可以将多音字对应的文本(存在多音字的文本)转换为多音字的每个音对应的拼音字符串，即由一个文本形成多个文本(这里的多个文本的数量与多音字存在的每个音的数量相等)。具体例如当文本中包含重这个字时，可以将包含重这个字的文本转换为chong拼音字符对应的文本以及zhong拼音字符对应的文本，即包含重这个字的文本转换生成了两个对应的拼音字符串。为了尽可能减少发音者的读音问题造成的错误，保证最大可能的还原语音识别文本中包含的发音者原来的读音信息，本实施例中将语音识别文本以及预设备选项文本转化为对应的拼音字符串可以包括：

当语音识别文本以及预设备选项文本包含多音字时，将包含多音字的文本利用pinyin4j算法分别转换为多音字的每个音对应的拼音字符串；

当语音识别文本以及预设备选项文本不包含多音字时，将不包含多音字的文本利用pinyin4j算法转化为对应的拼音字符串。

具体的，本实施例可以直接将获取的语音识别文本以及预设备选项文本按照上述方式转换为对应的拼音字符串。当然也可以是首先将获取的语音识别文本以及预设备选项文本中数字替换为对应的汉字文本，再将替换后得到的各个语音识别文本以及预设备选项文本按照上述方式转换为对应的拼音字符串。

步骤S120、利用字符拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；

该步骤要将步骤S110中得到的全部的拼音字符串均利用字符拆分规则进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组。此时本实施例并不限定得到的语音识别文本对应的语音识别文本字符单元组的数量以及每个预设备选项文本对应的预设备选项文本字符单元组的数量。具体根据上述步骤S110中的内容确定，可以理解的是，进入步骤S120时语音识别文本对应的拼音字符串的数量与得到的语音识别文本字符单元组的数量相等。进入步骤S120时每个预设备选项文本对应的拼音字符串的数量与得到的该预设备选项文本对应的预设备选项文本字符单元组的数量相等。

为了提高后续文本匹配的准确率，本实施例中利用字符拆分规则对各拼音字符串进行拆分，然后再将得到语音识别文本字符单元组和各预设备选项文本字符单元组进行匹配的方式，能更好的确定发音者准确的读音信息，进而准确识别到发音者原来的读音意图。因此，本实施例中在进行最终的文本匹配之前，需要利用字符拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组。

本实施例中并不对字符拆分规则进行限定，可以根据实际应用场景进行确定，只要可以实现将拼音字符串拆分成各个字符单元即可。例如这里可以将拼音字符串拆分成单个的字符单元，也可以是将拼音字符串按照每预设数量(本实施例中并不对预设数量进行限定，可以由用户进行设定，例如2个)个字符拆分成对应的字符单元，当然也可以是选用声母和韵母结构进行拆分形成声母和韵母对，也可以选用声母、单韵母以及鼻音对结构进行拆分形成声母、单韵母以及鼻音对。其都可以将拼音字符串拆分成对应的字符单元。例如文本：北京。对应的拼音字符串：beijing。按照将拼音字符串拆分成单个的字符单元进行拆分得到的文本字符单元组：[b,e,i,j,i,n,g]。按照声母和韵母结构进行拆分得到的文本字符单元组：[b,ei,j,ing]。按照声母、单韵母以及鼻音对结构进行拆分得到的文本字符单元组：[b,e,i,j,i,ng]。

步骤S130、分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次。

步骤S140、若频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本。

步骤S130和步骤S140的目的是利用拆分后的语音识别文本字符单元组与各预设备选项文本字符单元组进行匹配，确定匹配文本，也就是确定发音者原本意图。本实施中通过分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次，来确定最后的匹配文本。当频次中的最大频次值不大于设定匹配阈值，则证明没有能够匹配上的文本。即没有命中的预设备选项文本。本实施例并不对该情况下需要执行的操作进行限定，例如可以是直接结束本次文本匹配；也可以是在结束本次文本匹配的基础上发出提示信息(本实施例中并不对提示信息的提示形式以及具体内容进行限定)。可以理解的是，需要语音识别文本对应的每一个语音识别文本字符单元组均分别计算与各预设备选项文本字符单元组之间相同字符单元出现的频次。例如，当语音识别文本对应两个语音识别文本字符单元组，且预设备选项文本字符单元组为三个时，需要计算语音识别文本对应每个语音识别文本字符单元组与三个预设备选项文本字符单元组之间相同字符单元出现的频次。即可以得到六组频次数值。

本实施例中并不对具体计算频次的方式进行限定。例如先统计语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量；在计算相同字符单元出现的数量所占的比例即频次。本实施例中在确定频次时，可以是相同字符单元出现的数量与语音识别文本字符单元组的单元数进行比较。也可以是相同字符单元出现的数量与对应的预设备选项文本字符单元组的单元数进行比较。当然也可以是相同字符单元出现的数量与语音识别文本字符单元组的单元数进行比较的同时也与对应的预设备选项文本字符单元组的单元数进行比较，即一个语音识别文本字符单元组与一个预设备选项文本字符单元组之间得到两个频次。此时可以理解为每组频次的数量可以是两个。本实施例中提供一种分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次的方式，可以包括：

分别将语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量除以对应预设备选项文本字符单元组的单元数得到正向频次；和/或，

分别将语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量除以语音识别文本字符单元组的单元数得到反向频次。

具体的，本实施例中可以仅采用分别将语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量除以对应预设备选项文本字符单元组的单元数得到正向频次的方式。也可以是仅采用分别将语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量除以语音识别文本字符单元组的单元数得到反向频次的方式。当然也可以采用分别将语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量除以对应预设备选项文本字符单元组的单元数得到正向频次以及分别将语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量除以语音识别文本字符单元组的单元数得到反向频次的方式。简单来说，即可以仅仅只计算正向频次，也可以是仅计算反向频次，也可以是同时计算正向频次和反向频次。

下面通过一个具体例子，说明上述正向频次和反向频次的计算过程。例如语音识别文本对应的语音识别文本字符单元组A为[c,o,u,q,i,y,a]，第一个预设备选项文本字符单元组为B1[ch,o,ng,q,i,ng,e,r,h,a]，B2[zh,o,ng,q,i,ng,e,r,h,a]；第二个预设备选项文本字符单元组为C[w,u,h,a,n,e,r,h,a]。统计A和B1中出现相同字符单元的数量，相同的字符单元为o,q,i,a即4个，对应的A的单元数为7，B1的单元数为10，则对应的正向频次为4/10＝0.4。对应的反向频次为4/7＝0.57。统计A和B2中出现相同字符单元的数量，相同的字符单元为o,q,i,a即4个，对应的A的单元数为7，B1的单元数为10，则对应的正向频次为4/10＝0.4。对应的反向频次为4/7＝0.57。统计A和C中出现相同字符单元的数量，相同的字符单元为u,a即2个，对应的A的单元数为7，C的单元数为9，则对应的正向频次为2/9＝0.22。对应的反向频次为2/7＝0.29。当然该例子中计算频次的最终结果取小数点后的两位。本实施例对频次的计算精度并不进行限定，可以由用户设定，当然也可以直接将分数比值作为最终频次的数值。

相应的，由于本实施例中并不限定计算频次的方式，因此也不会限定具体的利用频次进行文本匹配的方式。例如当同时计算正向频次和反向频次时，可以先判断相对于每个预设备选项文本其正向频次和反正频次是否都超过设定匹配阈值，再从均超过设定匹配阈值中找到频次数值最大的频次对应的预设备选项文本作为匹配文本。也可以将正向频次和反向频次的数值相加后再与设定匹配阈值进行比较，再从超过设定匹配阈值中找到相加后的频次数值最大的频次对应的预设备选项文本作为匹配文本。当然也可以是先利用正向频次与设定匹配阈值进行比较，当超过设定匹配阈值的最大频次的数值相等且属于多个预设备选项文本时，再利用反向频次与设定匹配阈值进行比较，再从超过设定匹配阈值中找到频次数值最大的反向频次对应的预设备选项文本作为匹配文本。

因此当频次仅为正向频次时，此时步骤S140即频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本可以包括：若正向频次中的最大正向频次值大于设定正向匹配阈值时，将最大正向频次值对应的预设备选项文本作为匹配文本；

当频次为仅反向频次时，此时步骤S140即频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本可以包括：若反向频次中的最大反向频次值大于设定反向匹配阈值时，将最大反向频次值对应的预设备选项文本作为匹配文本；

进一步，为了提高匹配效率，当频次为正向频次和反向频次时，此时步骤S140即频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本可以包括：判断正向频次中的最大正向频次值是否大于设定正向匹配阈值，若最大正向频次值大于设定正向匹配阈值，将最大正向频次值对应的预设备选项文本作为匹配文本；若最大正向频次值不大于设定正向匹配阈值，则判断反向频次中的最大反向频次值是否大于设定反向匹配阈值，若最大反向频次值大于设定反向匹配阈值，将最大反向频次值对应的预设备选项文本作为匹配文本。

本实施例并不对设定匹配阈值，设定正向匹配阈值以及设定反向匹配阈值的具体数值进行限定，其可以相同，也可以不同。可以由用户根据实际应用场景进行确定。

仍旧以上述计算的正向频次和反向频次的具体例子为例，且设置设定正向匹配阈值以及设定反向匹配阈值均为0.38来说明步骤S140的具体匹配过程。当频次仅为正向频次时，第一个预设备选项文本对应的正向频次为0.4、0.4。第二个预设备选项文本对应的正向频次为0.22。可见最大正向频次值0.4，且大于设定正向匹配阈值0.38，因此，对应的匹配文本即第一个预设备选项文本。当频次仅为反向频次时，第一个预设备选项文本对应的反向频次为0.57、0.57。第二个预设备选项文本对应的反向频次为0.29。可见最大反向频次值0.57，且大于设定反向匹配阈值0.38，因此，对应的匹配文本即第一个预设备选项文本。当频次为正向频次和反向频次时，第一个预设备选项文本对应的正向频次为0.4、0.4。第二个预设备选项文本对应的正向频次为0.22。可见最大正向频次值0.4，且大于设定正向匹配阈值0.38，因此，对应的匹配文本即第一个预设备选项文本。此时由于已经得到了匹配文本，因此不需要在对比反向频次。该利用频次进行文本匹配的方式不需要每次都进行正向频次以及反向频次的判断，仅在正向频次判断不出来匹配文本时，才是用反向频次进行判断。可见，该方式不仅保证了文本匹配的准确性，还提高了文本匹配的效率。

基于上述技术方案，本申请提供的文本匹配的方法，该方法将获取的语音识别设备翻译得到的语音识别文本转换为拼音字符串文本，以还原语音识别文本中包含的发音者原来的读音信息，进而对包含该发音者原来的读音信息的拼音字符串按照字符拆分规则进行拆分得到语音识别文本字符单元组，对该语音识别文本字符单元组与各预设备选项文本字符单元组进行匹配可以得到发音者期望得到的备选项，提高了文本匹配准确率，且对语音识别设备的识别错误情况有极高的意图还原能力，容错性高，大大降低了对语音识别设备的语音识别能力的依赖。

基于上述实施例，为了进一步提高文本匹配的识别效率，由于汉语拼音中的声母和单韵母的读音信息不易丢失，且声母和单韵母的读音与地域的关联性不强，也就是说每个地域的发音者对声母和单韵母的读音基本一致，几乎不存在差别。即声母以及单韵母可以很好的还原发音者原来的读音信息。可以保证本实施例在各种语境中的文本匹配准确性，例如语境可以是普通话语境，或者与普通话读音相似度高的地方方言语境，或者母语非普通话的发音者用普通话互动的语境。具体请参考图2，图2为本申请实施例所提供的另一文本匹配的方法的流程图；该方法可以包括：

步骤S210、将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串。

具体可以参考上述实施例中的步骤S110。

步骤S220、利用声韵母拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组。

该步骤要将步骤S210中得到的全部的拼音字符串均利用声韵母拆分规则进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组。此时本实施例并不限定得到的语音识别文本对应的语音识别文本字符单元组的数量以及每个预设备选项文本对应的预设备选项文本字符单元组的数量。具体根据上述步骤S210中的内容确定，可以理解的是，进入步骤S220时语音识别文本对应的拼音字符串的数量与得到的语音识别文本字符单元组的数量相等。进入步骤S220时每个预设备选项文本对应的拼音字符串的数量与得到的该预设备选项文本对应的预设备选项文本字符单元组的数量相等。

因为发音者的发音经过载体设备采音，人工智能系统翻译即语音识别后，会丢失真实的发音者语意，但是识别的语音识别文本中保留了发音者真正意图的读音。这是由于在普通话语境下，包括与普通话读音相似度高的地方方言语境，以及母语非普通话的发音者用普通话互动的语境下，汉语拼音中的声母和单韵母的读音信息不易丢失，因而通过本实施例能够还原发音者的读音信息，也可以理解为声韵母信息，与有限选项的读音信息进行比对，区分出发音者最可能期望选择的备选项。即汉语拼音中的声母和单韵母的读音信息不易丢失，且声母和单韵母的读音与地域的关联性不强，也就是说每个地域的发音者对声母和单韵母的读音基本一致，几乎不存在差别。即声母以及单韵母可以很好的还原发音者原来的读音信息。相比将语音识别文本对应的拼音字符串直接与各预设备选项文本对应的拼音字符串进行匹配的方式，本实施例中利用声韵母拆分规则对各拼音字符串进行拆分，然后再将得到语音识别文本字符单元组和各预设备选项文本字符单元组进行匹配的方式，能更好的确定发音者准确的读音信息，进而准确识别到发音者原来的读音意图。因此，本实施例中在进行最终的文本匹配之前，需要利用声韵母拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组。

本实施例中并不对声韵母拆分规则进行限定，可以根据实际应用场景进行确定，只要可以实现将拼音字符串拆分成各个声母部分，韵母部分对应的字符单元即可。例如这里可以选用声母和韵母结构进行拆分形成声母和韵母对，当然也可以选用声母、单韵母以及鼻音对结构进行拆分形成声母、单韵母以及鼻音对。例如文本：北京。对应的拼音字符串：beijing。按照声母和韵母结构进行拆分得到的文本字符单元组：[b,ei,j,ing]。按照声母、单韵母以及鼻音对结构进行拆分得到的文本字符单元组：[b,e,i,j,i,ng]。本实施例中提供一种利用声韵母拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组的方式，可以包括：

将各拼音字符串按照声母和韵母结构进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；或，

将各拼音字符串按照声母、单韵母以及鼻音对结构进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组。

步骤S230、分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次。

步骤S240、若频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本。

具体可以参考上述实施例中的步骤S130和步骤S140。

基于上述技术方案，本申请提供的文本匹配的方法，该方法将获取的语音识别设备翻译得到的语音识别文本转换为拼音字符串文本，以还原语音识别文本中包含的发音者原来的读音信息即声韵母信息，进而对包含该发音者原来的读音信息的拼音字符串按照声韵母拆分规则进行拆分得到语音识别文本字符单元组，对该语音识别文本字符单元组与各预设备选项文本字符单元组进行匹配可以得到发音者期望得到的备选项，进一步提高了文本匹配准确率以及语境适应能力，且对语音识别设备的识别错误情况有极高的意图还原能力，容错性高，大大降低了对语音识别设备的语音识别能力的依赖。

基于上述任意实施例，为了进一步提高文本匹配准确率以及文本匹配的识别率。本实施例在频次中的最大频次值不大于设定匹配阈值，也可以理解为在上述实施例的匹配过程中并不能得到匹配文本时，可能是由于发音者自身的口音问题等造成的文本匹配失败，因此为了解决由于发音者口音造成的文本匹配失败的情况，本实施例还可以包括：

将语音识别文本字符单元组以及各预设备选项文本字符单元组按照预设模糊替换规则进行字符单元的替换生成新的语音识别文本字符单元组以及各预设备选项文本字符单元组后，执行上述实施例中步骤S130的步骤。

本实施例中并不对预设模糊替换规则的具体内容进行限定。例如可以是将语音识别文本字符单元组以及各预设备选项文本字符单元组的各字符单元中的翘舌音替换为平舌音；或者是各字符单元中的后鼻音替换为前鼻音；或者是各字符单元中的N改为L；各字符单元中的F改为H。例如将韵母“ing”替换为韵母“in”,韵母“ong”替换为韵母“o”,韵母“eng”替换为韵母“en”,韵母“ang”替换为韵母“an”。当然也可以是上述替换规则的任意组合。也可以由用户根据产品的实际应用区域或者应用场景自定义预设模糊替换规则，并可以对该预设模糊替换规则进行及时的修改等操作。可以理解的是当预设模糊替换规则具有多种时，可以一次全部替换，也可以每次仅替换一种，或者是由用户设定利用预设模糊替换规则进行替换的替换方式。

可以理解的是，也可以直接在语音识别文本以及各预设备选项文本对应的拼音字符串中按照预设模糊替换规则进行字符替换；当然由于发音者口音产生的错误一般只出现在语音识别文本中，因此也可以直接仅在语音识别文对应的拼音字符串中按照预设模糊替换规则进行字符替换(例如将语音识别文本对应的拼音字符串按照预设模糊替换规则进行拼音字符的替换生成新拼音字符串，并对新拼音字符串进行拆分处理得到新语音识别文本字符单元组；将新语音识别文本字符单元组作为语音识别文本字符单元组后执行上述实施例中步骤S130的步骤)；或者是仅在语音识别文对应的语音识别文本字符单元组中按照预设模糊替换规则进行字符单元的替换。本实施例对此并不进行限定。

基于上述技术方案，本申请提供的文本匹配的方法，该方法将获取的语音识别设备翻译得到的语音识别文本转换为拼音字符串文本，以还原语音识别文本中包含的发音者原来的读音信息，进而对包含该发音者原来的读音信息的拼音字符串按照读音规则进行拆分得到语音识别文本字符单元组，对该语音识别文本字符单元组与各预设备选项文本字符单元组进行匹配可以得到发音者期望得到的备选项，提高了文本匹配准确率，且对语音识别设备的识别错误情况有极高的意图还原能力，容错性高，大大降低了对语音识别设备的语音识别能力的依赖。进一步通过预设模糊替换规则提高发音者原来的读音信息的可靠性，进而提高文本匹配准确率以及文本匹配的识别率，即能够实现在方言或各地口音影响造成的语音识别错误时，也能够较大的还原发音者原来的读音信息，命中发音者原本意图。

下面对本申请实施例提供的文本匹配的装置、终端及计算机可读存储介质进行介绍，下文描述的文本匹配的装置、终端及计算机可读存储介质与上文描述的文本匹配的方法可相互对应参照。

请参考图3，图3为本申请实施例所提供的文本匹配的装置的结构框图；该装置可以包括：

转换模块100，用于将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串；

拆分模块200，用于利用字符拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；

频次计算模块300，用于分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次；

匹配模块400，用于若频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本。

基于上述技术方案，本申请提供的文本匹配的装置法，该装置提高了文本匹配准确率，且对语音识别设备的识别错误情况有极高的意图还原能力，容错性高，大大降低了对语音识别设备的语音识别能力的依赖。

基于上述实施例，该装置还可以包括：

数字替换模块，用于将语音识别文本以及预设备选项文本中的数字替换为对应的汉字文本。

基于上述任意实施例，转换模块100可以包括：

第一转换单元，用于当语音识别文本以及预设备选项文本包含多音字时，将包含多音字的文本利用pinyin4j算法分别转换为多音字的每个音对应的拼音字符串；

第二转换单元，用于当语音识别文本以及预设备选项文本不包含多音字时，将不包含多音字的文本利用pinyin4j算法转化为对应的拼音字符串。

基于上述任意实施例，拆分模块200具体可以是用于利用声韵母拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组的模块。

基于上述实施例，拆分模块200可以包括：

第一拆分单元，用于将各拼音字符串按照声母和韵母结构进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；或，

第二拆分单元，用于将各拼音字符串按照声母、单韵母以及鼻音对结构进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组。

基于上述任意实施例，频次计算模块300可以包括：

第一频次计算单元，用于分别将语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量除以对应预设备选项文本字符单元组的单元数得到正向频次；和/或，

第二频次计算单元，用于分别将语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的数量除以语音识别文本字符单元组的单元数得到反向频次。

基于上述实施例，匹配模块400可以包括：

第一匹配单元，用于当频次为正向频次时，若正向频次中的最大正向频次值大于设定正向匹配阈值时，将最大正向频次值对应的预设备选项文本作为匹配文本；

第二匹配单元，用于当频次为反向频次时，若反向频次中的最大反向频次值大于设定反向匹配阈值时，将最大反向频次值对应的预设备选项文本作为匹配文本；

第三匹配单元，用于当频次为正向频次和反向频次时，判断正向频次中的最大正向频次值是否大于设定正向匹配阈值，若最大正向频次值大于设定正向匹配阈值，将最大正向频次值对应的预设备选项文本作为匹配文本；若最大正向频次值不大于设定正向匹配阈值，则判断反向频次中的最大反向频次值是否大于设定反向匹配阈值，若最大反向频次值大于设定反向匹配阈值，将最大反向频次值对应的预设备选项文本作为匹配文本。

此处，若频次仅为正向频次时，匹配模块400仅包含第一匹配单元；若频次仅为反向频次时，匹配模块400仅包含第二匹配单元；若频次为正向频次和反向频次时，匹配模块400包含第三匹配单元。

基于上述任意实施例，该装置还可以包括：

模糊替换模块，用于若频次中的最大频次值不大于设定匹配阈值时，将语音识别文本字符单元组以及各预设备选项文本字符单元组按照预设模糊替换规则进行字符单元的替换生成新的语音识别文本字符单元组以及各预设备选项文本字符单元组后，执行频次计算模块300。

需要说明的是，基于上述任意实施例，所述装置可以是基于可编程逻辑器件实现的，可编程逻辑器件包括FPGA，CPLD，单片机，DSP，CPU等。这些可编程逻辑器件可以设置在终端中。

本申请实施例还提供一种终端，包括：存储器，用于存储计算机程序；处理器，用于执行计算机程序时实现如上述任意实施例所述的文本匹配的方法的步骤。如处理器执行计算机程序时实现将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串；利用字符拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次；若频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本。

需要说明的是，本实施例的执行主体是终端，但是本实施例并不对该终端的具体所包含的组件进行限定，只要其具有上述功能模块，能够实现上述功能即可。至于其他组件可以根据用户实际需要进行相应设置，例如该终端可以具有语音识别的功能(此时相对应的需要有采集发音者声音的麦克风，以及能够进行语音识别处理的处理器，也可以理解为具有语音识别功能的人机语音交互设备)，也可以不具有语音识别的功能(此时相应的需要能够接收语音识别文本的部件，如与外部进行数据交互的接口)。即终端还可以包括多媒体组件，输入/输出(I/O)接口(可以用于接收语音识别文本、预设备选项文本、设定匹配阈值以及其他数据信息，以及输出匹配文本)，以及通信组件中的一者或多者。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例所述的文本匹配的方法的步骤。如计算机程序被处理器执行时实现将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串；利用字符拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；分别计算语音识别文本字符单元组与各预设备选项文本字符单元组之间相同字符单元出现的频次；若频次中的最大频次值大于设定匹配阈值时，将最大频次值对应的预设备选项文本作为匹配文本。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，例如降低一个实施例和第二个实施例结合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种文本匹配的方法、装置、终端及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种文本匹配的方法，其特征在于，包括：

利用字符拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；

若所述频次中的最大频次值大于设定匹配阈值时，将所述最大频次值对应的预设备选项文本作为匹配文本；

其中，所述利用字符拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述将获取的语音识别文本以及预设备选项文本转化为对应的拼音字符串，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用声韵母拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各所述预设备选项文本字符单元组，包括：

5.根据权利要求1所述的方法，其特征在于，分别计算所述语音识别文本字符单元组与各所述预设备选项文本字符单元组之间相同字符单元出现的频次，包括：

6.根据权利要求5所述的方法，其特征在于，当所述频次为正向频次时，若所述频次中的最大频次值大于设定匹配阈值时，将所述最大频次值对应的预设备选项文本作为匹配文本，包括：若所述正向频次中的最大正向频次值大于设定正向匹配阈值时，将所述最大正向频次值对应的预设备选项文本作为匹配文本；

7.根据权利要求1-6任一项所述的方法，其特征在于，若所述频次中的最大频次值不大于设定匹配阈值时，还包括：

8.一种文本匹配的装置，其特征在于，包括：

拆分模块，用于利用字符拆分规则对各所述拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；具体的利用声韵母拆分规则对各拼音字符串进行拆分，得到语音识别文本字符单元组和各预设备选项文本字符单元组；

9.一种终端，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述文本匹配的方法的步骤。