CN111259657A

CN111259657A - 车站名称识别方法、装置、设备及存储介质

Info

Publication number: CN111259657A
Application number: CN202010033448.9A
Authority: CN
Inventors: 翁宗鹏; 丁保剑; 秦伟; 李逸帆; 曾明; 杨东泉
Original assignee: Guangzhou Jiadu Technology Software Development Co Ltd; Guangzhou Xinke Jiadu Technology Co Ltd; PCI Suntek Technology Co Ltd
Current assignee: Guangzhou Jiadu Technology Software Development Co Ltd; Guangzhou Xinke Jiadu Technology Co Ltd; PCI Suntek Technology Co Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-06-09

Abstract

本发明实施例公开了一种车站名称识别方法、装置、设备及存储介质，涉及数据处理技术领域，其包括：获取基于用户的语音请求数据得到的文本识别结果；查找所述文本识别结果中出现的备选车站名称；生成所述备选车站名称的正则表达式，并根据所述正则表达式在车站名称集合中匹配相关的目标车站名称，所述正则表达式为拼音的混淆发音表达式；利用所述目标车站名称替换所述文本识别结果中的所述备选车站名称，以得到最终文本识别结果。采用上述方案可以解决现有技术中，由于用户混淆发音而无法对语音数据进行正确识别的技术问题。

Description

车站名称识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种车站名称识别方法、装置、设备及存储介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，被广泛应用于人们生活的各类场景。尤其在语音识别场景中，用户可以通过语音数据的方式向智能设备发出指令，之后，智能设备基于采集到的语音数据执行对应的指令。

目前，语音识别场景被广泛应用于各类场景，例如，出行场景下，用户可以通过向智能设备发出语音数据的方式查找目的地、出行路线以及购买车票等。然而，现有的语音识别模型通常是基于普通话训练得到，当用户因为方言、发音方式等原因没有输入正确的普通话时，即混淆发音时，语音识别模型便会识别到错误的结果，例如，用户想要查询“沙村”地铁站，但是因为混淆发音，使得智能设备识别出“沙葱”地铁站，即得到了错误的识别结果，这样会使得智能设备无法正确执行用户的指令，降低了用户的使用体验。

发明内容

本发明提供了一种车站名称识别方法、装置、设备及存储介质，以解决现有技术中，由于用户混淆发音而无法对语音数据进行正确识别的技术问题。

第一方面，本发明实施例提供了一种车站名称识别方法，包括：

获取基于用户的语音请求数据得到的文本识别结果；

查找所述文本识别结果中出现的备选车站名称；

生成所述备选车站名称的正则表达式，并根据所述正则表达式在车站名称集合中匹配相关的目标车站名称，所述正则表达式为拼音的混淆发音表达式；

利用所述目标车站名称替换所述文本识别结果中的所述备选车站名称，以得到最终文本识别结果。

进一步的，所述查找所述文本识别结果中出现的备选车站名称包括：

对所述文本识别结果进行关键文本提取，以得到关键文本列表，所述关键文本列表包含提取到的至少一个关键文本；

在所述关键文本列表中查找最优关键文本作为备选车站名称。

进一步的，所述对所述文本识别结果进行关键文本提取，以得到关键文本列表，所述关键文本列表包含提取到的至少一个关键文本包括：

剔除所述文本识别结果中的高频文本，得到剔除文本；

根据所述高频文本在所述文本识别结果中的位置对所述剔除文本进行切割，并将切割后得到的至少一个关键文本组成关键文本列表。

进一步的，所述在所述关键文本列表中查找最优关键文本作为备选车站名称包括：

分别计算每个关键文本与车站名称集合中各车站名称的欧式距离；

根据所述欧式距离确定最优关键文本，并将所述最优关键文本作为备选车站名称。

进一步的，所述根据所述欧式距离确定最优关键文本包括：

分别在每个所述关键文本对应的各欧式距离中选择最小欧式距离；

将所述最小欧式距离与对应关键文本的文本长度相除，以得到关键文本的相似度指数；

在全部所述相似度指数中，选择最小相似度指数对应的关键文本作为查找到的最优关键文本。

进一步的，所述分别计算每个关键文本与车站名称集合中各车站名称的欧式距离包括：

确定每个所述关键文本包含的拼音字符；

统计所述拼音字符在对应关键文本中的出现次数以及在字符向量中的索引位置；

根据所述出现次数和所述索引位置得到对应关键文本的第一拼音字符向量；

计算各所述第一拼音字符向量与车站名称集合中各车站名称的第二拼音字符向量之间的欧式距离。

进一步的，所述生成所述备选车站名称的正则表达式包括：

获取所述备选车站名称的拼音字符序列；

在预设的正则表达式集合中匹配与所述拼音字符序列相关的至少一个混淆发音正则表达式，所述预设的正则表达式集合根据拼音的混淆发音规律得到；

利用匹配到的至少一个混淆发音正则表达式替换所述拼音字符序列中对应的拼音字符，以得到所述备选车站名称的正则表达式。

第二方面，本发明实施例还提供了一种车站名称识别装置，包括：

结果获取模块，用于获取基于用户的语音请求数据得到的文本识别结果；

名称查找模块，用于查找所述文本识别结果中出现的备选车站名称；

表达式生成模块，用于生成所述备选车站名称的正则表达式，并根据所述正则表达式在车站名称集合中匹配相关的目标车站名称，所述正则表达式为拼音的混淆发音表达式；

结果生成模块，用于利用所述目标车站名称替换所述文本识别结果中的所述备选车站名称，以得到最终文本识别结果。

第三方面，本发明实施例还提供了一种车站名称识别设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的车站名称识别方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的车站名称识别方法。

上述车站名称识别方法、装置、设备及存储介质，通过获取用户的语音请求数据并得到对应的文本识别结果，在文本识别结果中查找出现的备选车站名称，基于拼音的混淆发音构建备选车站名称的正则表达式，并基于正则表达式在车站名称集合中匹配相关的目标车站名称，之后，将文本识别结果中的备选车站名称替换为目标车站名称，以得到最终文本识别结果的技术手段，解决了现有技术中由于用户混淆发音而无法对语音数据进行正确识别的技术问题。通过构建易产生混淆发音的正则表达式，可以保证识别结果的准确性，且对车站名称的拼音有容错能力，即使语音转文字的识别结果出现错误的情况下仍然能够对车站名称进行准确的识别，具有更强的鲁棒性。

附图说明

图1为本发明一个实施例提供的一种车站名称识别方法的流程图；

图2为本发明一个实施例提供的一种车站名称识别方法的流程图；

图3为本发明一个实施例提供的一种车站名称识别装置的结构示意图；

图4为本发明一个实施例提供的一种车站名称识别设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或操作或对象与另一个实体或操作或对象区分开来，而不一定要求或者暗示这些实体或操作或对象之间存在任何这种实际的关系或顺序。例如，第一拼音字符向量和第二拼音字符向量的“第一”和“第二”用来区分两个不同的拼音字符向量。

实施例中提供的车站名称识别方法可以由车站名称识别装置执行，该车站名称识别装置可以通过软件和/或硬件的方式实现，并集成在车站名称识别设备中。其中，车站名称识别设备可以是平板电脑、台式电脑、智能手机、智能机器人、服务器等具有数据处理及分析能力的智能设备，车站名称识别设备可以为一个独立的智能设备，或由多个可进行数据通信的智能设备组成。需要说明，实施例中以识别车站名称为例，实际应用中，车站名称识别设备还可以识别其他场景的语音数据。

图1为本发明一个实施例提供的一种车站名称识别方法的流程图。具体的，参考图1，该车站名称识别方法具体包括：

步骤110、获取基于用户的语音请求数据得到的文本识别结果。

示例性的，语音请求数据为用户发出的、包含车站名称及命令词的语音数据。其中，车站可以是指汽车站、地铁站、火车站、机场等。实施例中，以地铁站为例进行描述。语音请求数据中可以包含至少一个车站名称，实施例中以语音请求数据包含一个车站名称为例进行描述。进一步的，命令词可以是查询路线、购买车票、到站时间等与车站场景相关且可以代表命令的词汇。

一个实施例中，车站名称识别设备自身设置有语音采集装置(如麦克风)，通过语音采集装置可以采集到用户的语音请求数据。或者是，通过网络下载语音数据的方式获取语音请求数据。又或是，与其他设备进行通信，以获取其他设备发送的语音请求数据。

进一步的，获取到语音请求数据后，对语音请求数据进行语音识别，以得到对应的文本数据，实施例中，将识别得到的文本数据记为文本识别结果。可以理解，文本识别结果中可以包含文字、字母及符号等内容。典型的，语音识别的具体手段实施例不做限定。例如，通过语音分析及语义分析的方式得到文本识别结果。再如，构建神经网络模型或隐马尔可夫识别模型等语音识别模型，并通过语音识别模型对语音请求数据进行识别，以得到文本识别结果。

可以理解，文本识别结果可以认为是对语音请求数据进行直译后得到的结果。若用户的语音请求数据中包含了混淆发音的车站名称，则需要后续对混淆发音进行修正。即对文本识别结果进行修正。

步骤120、查找所述文本识别结果中出现的备选车站名称。

具体的，由于语音请求数据中包含车站名称，因此，需要在文本识别结果中查找出最可能表示车站名称的文本数据。实施例中，将查找到的最可能表示车站名称的文本数据记为备选车站名称。该文本数据可以仅包含车站名称或者包含车站名称及其他文本。

查找备选车站名称的方式可以根据实际情况设定，例如，对文本识别结果中出现的高频文本进行剔除，对于剔除后保留的文本而言，将任意两个相邻高频文本之间的文本、位于起始位置的文本以及结束位置的文本分别记为一个关键文本，之后，计算各关键文本与车站名称集合中各车站名称之间的相似度，并选择相似度最高的关键文本作为备选车站名称。或者是，基于语义识别对文本识别结果进行切割得到多个子文本，之后，计算子文本与车站名称集合中各车站名称之间的相似度，并选择相似度最高的关键文本作为备选车站名称。又或是，利用人工智能技术，构建深度神经网络对文本识别结果进行识别，以得到备选车站名称。

步骤130、生成所述备选车站名称的正则表达式，并根据所述正则表达式在车站名称集合中匹配相关的目标车站名称，所述正则表达式为拼音的混淆发音表达式。

为了保证最终文本识别结果的准确性，需要对备选车站名称进行混淆发音的修正，以保证识别到正确的车站名称。实施例中，通过正则表达式的方式实现混淆发音的修正。其中，混淆发音是指由于用户的发音习惯导致发出错误的拼音。例如，混淆发音为翘舌音混淆，此时，用户会将“sha”发为“sa”的音。再如，混淆发音为前后鼻音混淆，此时，用户会将“gang”发为“gan”。

实施例中，识别出备选车站名称中易产生混淆发音的拼音，并构造对应的正则表达式。其中，正则表达式是一种用于匹配字符串中特定模式的一种规则，具有一定的泛化能力。实施例中，构造的正则表达式也可以认为是拼音的混淆发音表达式。例如。拼音“sh”易产生翘舌音混淆，因此，可以设置对应的正则表达式“sh？”,以表示该拼音易产生混淆发音，后续识别过程中，除了识别拼音“sh”，还可以识别易产生的混淆发音“s”。可以理解，将备选车站名称中每个易产生混淆发音的拼音均用对应的正则表达式替代后，便可以得到备选车站名称的正则表达式。可以理解，一般备选车站名称包含至少两个拼音，因此，备选车站名称的正则表达式包含基于至少两个拼音得到的混淆发音表达式。可以理解，若备选车站名称中不包含易混淆发音的拼音，则可以直接将备选车站名称中各拼音作为备选车站名称的正则表达式。

典型的，预先设定正则表达式的查找规则，其中，查找规则可以为基于正则表达式查找对应的拼音、以及与拼音相关的混淆发音。例如，备选车站名称中某个字的拼音为“sha”，正则表达式为“sh？a”，那么，查找规则为查找发音为“sha”及“sa”的文字。按照上述查找规则便可以在车站名称集合中查找与备选车站名称匹配的车站名称，并记为目标车站名称。其中，本步骤中提及的车站名称集合与前述步骤中提及的车站名称集合相同。该车站名称集合可以是统计一定数量或地理范围内的车站名称并生成的集合。例如，以“地级市”为单位，统计某个“地级市”内全部地铁站的名称，得到车站名称集合。再如，以“直辖市”为单位，统计某个“直辖市”内全部地铁站的名称，得到车站名称集合。可选的，车站名称集合中每个车站名称对应一条数据。该条数据包含的内容可以根据实际情况设定，例如，该条数据包含车站名称的文字数据、拼音字符数据以及基于拼音字符数据编码得到的拼音字符向量等内容。

进一步的，基于备选车站名称的正则表达式在车站名称集合中查找对应的车站名称。例如，备选车站名称的正则表达式为“xinsh？a”，此时，可以在车站名称集合中查找拼音为“xinsha”和“xinsa”的车站名称，并返回对应的文字数据。可选的，若文字数据只有一条，则可以直接将文字数据作为查找到的目标车站名称。若文字数据有多条，则可以将多条文字数据均作为目标车站名称，或者是，在多条文字数据中选择与备选车站名称相似度最高的至少一条文字数据作为目标车站名称。

可以理解，通过查找目标车站名称可以解决备选车站名称的混淆发音现象。

步骤140、利用所述目标车站名称替换所述文本识别结果中的所述备选车站名称，以得到最终文本识别结果。

具体的，目标车站名称为文字数据，因此，可以直接将文本识别结果中的备选车站名称替换为目标车站名称，以避免混淆发音的现象，进而得到最终的文本识别结果。

举例而言，语音请求数据得到的文本识别结果为“帮我买张去下降的地铁票”，查找文本识别结果中出现的备选车站名称为“下降”，其中，“降”中的拼音“ang”为易混淆发音，即容易将拼音“ao”发成“ang”，此时，构建备选车站名称“下降”的正则表达式，并基于正则表达式在车站名称集合中匹配拼音为“xiajiang”及“xiajiao”的车站名称。之后，匹配得到目标车站名称为“厦滘”，因此，将文本识别结果中“下降”替换为“厦滘”，即得到最终的文本识别结果“帮我买张去厦滘的地铁票”。

进一步的，得到最终文本识别结果后，车站名称识别设备可以基于最终文本识别结果执行对应的指令。可选的，车站名称识别设备还配置有显示屏，在执行对应的指令前，可以在显示屏中弹出指令内容，以使用户确认指令是否准确，并在指令准确时执行对应的指令。若指令错误，则可以提示用户重新输入语音请求数据。

可以理解，上述识别过程中对于易产生混淆发音的备选车站名称进行修正。实际应用中，还可以对易产生混淆发音的其他的文本内容进行修正，此时，生成正则表达式后，可以基于正则表达式确定用户可能的发音，之后，通过对可能的发音进行语义识别，以得到最终文本识别结果。或者是，根据当前的文本内容确定对应的混淆发音文本集合，并基于正则表达式在集合中查找，以得到修正后的文本内容，进而得到最终文本识别结果。

上述，通过获取用户的语音请求数据并得到对应的文本识别结果，在文本识别结果中查找出现的备选车站名称，基于拼音的混淆发音构建备选车站名称的正则表达式，并基于正则表达式在车站名称集合中匹配相关的目标车站名称，之后，将文本识别结果中的备选车站名称替换为目标车站名称，以得到最终文本识别结果的技术手段，解决了现有技术中由于用户混淆发音而无法对语音数据进行正确识别的技术问题。通过构建易产生混淆发音的正则表达式，可以保证识别结果的准确性，且对车站名称的拼音有容错能力，即使语音转文字的识别结果出现错误的情况下仍然能够对车站名称进行准确的识别，具有更强的鲁棒性。

图2为本发明一个实施例提供的一种车站名称识别方法的流程图。本实施例提供的车站名称识别方法是在上述实施例的基础上进行具体化。

本实施例中，所述查找所述文本识别结果中出现的备选车站名称包括：对所述文本识别结果进行关键文本提取，以得到关键文本列表，所述关键文本列表包含提取到的至少一个关键文本；在所述关键文本列表中查找最优关键文本作为备选车站名称。

所述生成所述备选车站名称的正则表达式包括：获取所述备选车站名称的拼音字符序列；在预设的正则表达式集合中匹配与所述拼音字符序列相关的至少一个混淆发音正则表达式，所述预设的正则表达式集合根据拼音的混淆发音规律得到；利用匹配到的至少一个混淆发音正则表达式替换所述拼音字符序列中对应的拼音字符，以得到所述备选车站名称的正则表达式。

参考图2，本实施例提供的车站名称识别方法具体包括：

步骤210、获取基于用户的语音请求数据得到的文本识别结果。

步骤220、对所述文本识别结果进行关键文本提取，以得到关键文本列表，所述关键文本列表包含提取到的至少一个关键文本。

其中，关键文本是指文本识别结果中疑似包含车站名称的文本。在文本识别结果中提取出疑似包含车站名称的全部文本，并将每个文本作为一个关键文本。当得到文本识别结果中的全部关键文本后，组成关键文本列表。可以理解，关键文本可以是一个字、一个词或一个短句。若文本识别结果中包含英文单词，则关键文本可以是一个词、一组词或者一个短句。实施例中，以关键文本为汉字为例进行描述。

其中，关键文本的提取方式可以根据实际情况。例如，对文本识别结果进行降维处理，剔除其包含的一些文字，之后，在保留的文字中，将相邻文字或没有相邻文字的单独文字确定为一个关键文本。其中，剔除的文字内容可以结合应用场景预先设定。再如，构建疑似车站名称集合，在文本识别结果中查找与疑似车站名称集合中疑似车站名称相似度高的文本，并作为关键文本。

实施例中，以通过降维处理得到关键文本为例，此时，步骤220包括步骤221-步骤222：

步骤221、剔除所述文本识别结果中的高频文本，得到剔除文本。

可以理解，备选车站名称中仅包含与车站名称有关的文字数据时，后续识别结果更为准确。例如，文本识别结果为“我想去下降”，此时，最理想的备选车站名称为“下降”。本实施例中文本识别结果是未被标注过的文本数据，因此，没有采用有监督方法训练识别备选车站名称的识别模型，其中，有监督方法也可以理解为有监督学习方法。此时，实施例中，通过剔除文本的方式实现对文本识别结果的降维，进而保证备选车站名称尽可能短。

对于文本识别结果“我想去下降”而言，后续处理过程中，文本“去下降”优于文本“想去下降”，因此，实施例中，在剔除文本时，采用剔除高频文本的方式，以保证得到尽可能短的关键文本。具体的，高频文本是指在当前应用场景中容易出现的高频字、高频词或高频短句等。高频文本可以通过分析历史文本识别结果得到。可以理解，不同应用场景下对应的高频文本的具体内容不同。例如，对于语音购票的场景而言，高频文本包括：我想去、我要去、带我去、帮我买、请、地铁票、张、票、去、的、我、问、能、帮等。进一步的，在文本识别结果中查找包含的高频文本。例如，文本识别结果为“请问能不能帮我买两张去下降的地铁票？”，识别文本识别结果中的高频文本后，得到高频文本列表：“请问能帮我买张去的地铁票？”。

进一步的，识别得到高频文本后，在文本识别结果中剔除高频文本。实施例中，将剔除高频文本后得到的文本数据记为剔除文本。举例而言，文本识别结果为“请问能不能帮我买两张去下降的地铁票？”，识别文本识别结果中的高频文本后，得到高频文本列表：“请问能帮我买张去的地铁票？”。剔除文本为“不两下降”。可选的，为了便于后续切割，可以将文本识别结果中高频文本的位置采用设定符号进行表示。例如，采用“，”表示高频文本的位置，那么上述示例中得到的剔除文本可以表示为“，，，不，，，，两，，下降，，，，”，其中，每个“，”代表高频文本中的一个文字。

步骤222、根据所述高频文本在所述文本识别结果中的位置对所述剔除文本进行切割，并将切割后得到的至少一个关键文本组成关键文本列表。

示例性的，对剔除文本进行切割，以得到至少一个关键文本。具体的，切割方式可以是：根据高频文本在文本识别结果中的位置确定剔除文本中的不相邻文本，进而基于不相邻文本进行切割。例如，文本识别结果为“请问能不能帮我买两张去下降的地铁票？”剔除文本为“不两下降”，此时，基于高频字可以确定“不”、“两”以及“下降”在文本识别结果中为不相邻文本，那么基于不相邻文本对剔除文本进行切割后可以得到“不”、“两”、“下降”三组文本，并将每组文本记为一个关键文本。之后，得到关键文本列表[不、两、下降]，可选的，若在剔除高频文本时，采用设定符号表示高频文本，那么本步骤可以直接基于设定符号确定剔除文本中的不相邻文本，进而切割得到关键文本。例如，剔除文本为“，，，不，，，，两，，下降，，，，”，此时，切割后得到的关键文本列表为[‘，’‘，’‘，’‘不’‘，’‘，’‘，’‘，’‘两’‘，’‘，’‘下降’‘，’‘，’‘，’‘，’]。

步骤230、在所述关键文本列表中查找最优关键文本作为备选车站名称。

具体的，在关键文本列表中查找最像车站名称的关键文本，并记为最优关键文本。其中，最优关键文本的确定方式可以是计算各关键文本与车站名称集合中各车站名称集合的相似度，选择相似度最高的关键文本作为最优关键文本。此时，设定步骤230包括步骤231-步骤232：

步骤231、分别计算每个关键文本与车站名称集合中各车站名称的欧式距离。

实施例中，采用欧式距离的方式计算车站名称集合中各车站名称与关键文本之间的相似度。即欧式距离可以度量两个文本之间的相似度。此时，为了计算欧式距离，需要将关键文本与车站名称集合中各车站名称数值化，即得到关键文本对应的数值化向量，同时，在构成车站名称集合中，将车站名称的数值化向量作为车站名称对应的数据内容。之后，计算关键文本的数值化向量与车站名称的数值化向量之间的欧式距离。

典型的，数值化向量的确定方式可以根据实际情况设定，例如，预先为拼音中每个字母设定对应的数值，之后，按照关键文本的拼音中各字母的排序排列对应的数值以得到数值化向量。例如，关键文本的拼音为：“bu”，字母b对应的数值为2，u对应的数值为21，因此，对应的数值化向量为[2,21]。又如，统计关键文本的拼音中各字母的出现次数，之后，基于英文字母列表中各字母的位置以及出现次数构造数值化向量。实施例中，以基于英文字母列表中各字母的位置以及出现次数构造数值化向量为例进行详细描述，此时，本步骤包括步骤2311-步骤2314：

步骤2311、确定每个所述关键文本包含的拼音字符。

拼音中的一个字母为一个拼音字符。例如，关键文本为“下降”，其对应的拼音为“xiajiang”，那么，包含的拼音字符为“x”、“i”、“a”、“j”、“n”、“g”。

步骤2312、统计所述拼音字符在对应关键文本中的出现次数以及在字符向量中的索引位置。

具体的，统计关键文本对应的拼音中，每个拼音字符出现的次数，例如，关键文本对应的拼音为“xiajiang”，此时，拼音字符“x”的出现次数为1，“i”的出现次数为2，“a”的出现次数为2，“j”的出现次数为1，“n”的出现次数为1，“g”的出现次数为1。

典型的，字符向量是指根据26个英文字母构造的26维向量，此时，每个拼音字符在字符向量中对应一个索引位置，且索引位置根据拼音字符在26个英文字母中的排列位置确定。例如，拼字字符“x”在字符向量中的索引位置为24，“i”在字符向量中的索引位置为9，“a”在字符向量中的索引位置为1。

步骤2313、根据所述出现次数和所述索引位置得到对应关键文本的第一拼音字符向量。

具体的，统计出现次数和索引位置后，便可以得到关键文本对应的数值化向量，实施例中，将关键文本对应的数值化向量记为第一拼音字符向量。具体的，在构建第一拼音字符向量时，可以是将拼音字符中的出现次数作为字符向量中对应索引位置处的具体数值。同时，将关键文件中未出现的其他拼音字符对应的索引位置处的具体数值记为0。举例而言，关键文本为“下降”，对应的第一拼音字符向量为[2,0,0,0,0,0,0,0,2,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0]。按照上述方式便可以得到每个关键文本的第一拼音字符向量。

步骤2314、计算各所述第一拼音字符向量与车站名称集合中各车站名称的第二拼音字符向量之间的欧式距离。

示例性的，将车站名称集合中车站名称对应的数值化向量记为第二拼音字符向量。每个车站名称对应一个第二拼音字符向量。第二拼音字符向量的确定方式与第一拼音字符向量的确定方式相同，实施例对此不做赘述。

针对任一关键文本而言，分别计算关键文本对应的第一拼音字符向量与车站名称集合中各车站名称对应的第二拼音字符向量之间的欧式距离。按照此方式可以得到每个关键文本对应的欧式距离。此时，每个关键文本可以对应多个欧式距离，且欧式距离的数量与车站名称集合中车站名称的数量相等。

步骤232、根据所述欧式距离确定最优关键文本，并将所述最优关键文本作为备选车站名称。

具体的，欧式距离越小，表明该欧式距离对应的车站名称与关键文本的相似度最高，关键文本包含车站名称的可能性越大。据此，可以在全部欧式距离中选择数值最小的欧式距离对应的关键文本作为最优关键文本。或者是，考虑到不同关键文本的文本长度不同。例如，关键文本“不”的文本长度为1，关键文本“下降”的文本长度为2。此时，不同文本长度会影响欧式距离的计算结果，进而影响最优关键文本的选择。因此，实施例中，采用结合文本长度的方式选择最优关键文本。此时，设定根据所述欧式距离确定最优关键文本包括步骤2321-步骤2323：

步骤2321、分别在每个所述关键文本对应的各欧式距离中选择最小欧式距离。

具体的，在关键文本对应的全部欧式距离中，选择最小欧式距离。此时，每个关键文本对应一个最小欧式距离。选择的最小欧式距离可以体现出关键文本与车站名称的最相似程度。

步骤2322、将所述最小欧式距离与对应关键文本的文本长度相除，以得到关键文本的相似度指数。

示例性的，关键文本的文本长度是指关键文本中包含的文字长度。例如，关键文本为“下降”，包含2个文字，因此，文本长度为2。可以理解，若关键文本中包含英文单词，则1个英文单词可以认为是1个文字，即将1个英文单词记为1个长度。

进一步的，将关键文本对应的最小欧式距离与文本长度相除，并将相除结果记为关键文本的相似度指数。即确定关键文本与车站名称的相似度时考虑了文本长度。此时，相似度指数的计算公式为：

其中，Similarity_i表示第i个关键文本的相似度指数。min(Euclideandistance)表示第i个关键文本的最小欧式距离，lenght(word_i)表示第i个关键文本的文本长度。可以理解，每个关键文本均有一个对应的相似度指数。需说明，最小欧式距离与文本长度相除也可以理解为最小欧式距离与文本长度的倒数相乘。

步骤2323、在全部所述相似度指数中，选择最小相似度指数对应的关键文本作为查找到的最优关键文本。

具体的，相似度指数越小说明对应的关键文本与车站名称集合中的某个车站名称的相似度越大。因此，实施例中，在全部关键文本对应的相似度指数中选择最小相似度指数，并将最小相似度指数对应的关键文本作为查找到的最优关键文本。

步骤240、获取所述备选车站名称的拼音字符序列。

具体的，拼音字符序列可以理解为备选车站名称的拼音字符串，拼音字符序列通过将备选车站名称包含的拼音整合得到。例如，备选车站名称为“沙村”，其包含的拼音为[‘sha’,‘cun’]，因此，得到的拼音字符序列为‘shacun’。

步骤250、在预设的正则表达式集合中匹配与所述拼音字符序列相关的至少一个混淆发音正则表达式，所述预设的正则表达式集合根据拼音的混淆发音规律得到。

具体的，根据不同方言或发音习惯可以确定混淆发音的规律。例如，针对混淆发音的规律为前后鼻音混淆，此时车站名称集合中，用户对“雷(lei)岗(gang)”混淆发音后会经常被识别成“累(lei)感(gan)”、用户对“金(jin)洲(zhou)”混淆发音后会经常被识别成“荆(jing)州(zhou)”、用户对“柯(ke)木(mu)塱(lang)”混淆发音后会经常被识别成“科(ke)目(mu)览(lan)”、用户对“花(hua)城(cheng)路(lu)”混淆发音后会经常被识别成“华(hua)晨(chen)览(lu)”、依次类推。再如，针对混淆发音的规律为翘舌音混淆，此时车站名称集合中，用户对“大(da)涌(chong)”混淆发音后会经常被识别成“大(da)葱(cong)”、用户对“谢(xie)村(cun)”混淆发音后会经常被识别成“谢(xie)春(chun)”、用户对“市(shi)二(er)宫(gong)”混淆发音后会经常被识别成“四(si)二(er)公(gong)”、用户对“三(san)溪(xi)”混淆发音后会经常被识别成“山(shan)西(xi)”、依次类推。又如，针对混淆发音的规律为声母“l”、“n”和“r”混淆，此时车站名称集合中，用户对“镇(zhen)龙(long)”混淆发音后会经常被识别成“阵(zhen)容(rong)”、用户对“农(nong)讲(jiang)所(suo)”混淆发音后会经常被识别成“龙(long)江(jiang)所(suo)”、用户对“雷(lei)岗(gang)”混淆发音后会经常被识别成“你(ni)岗(gang)”、用户对“澜(lan)石(shi)”混淆发音后会经常被识别成“男(nan)士(shi)”、依次类推。还如，针对混淆发音的规律为韵母“uan”和“an”混淆，此时车站名称集合中，用户对“苏(su)元(yuan)”混淆发音后会经常被识别成“苏(su)岩(yan)”、用户对“三(san)元(yuan)里(li)”混淆发音后会经常被识别成“三(san)眼(yan)里(li)”、依次类推。另如，针对混淆发音的规律为其它错误与合并多种错误，此时车站名称集合中，用户对“雷(lei)岗(gang)”混淆发音后会经常被识别成“你(ni)敢(gan)”、用户对“沙(sha)村(cun)”混淆发音后会经常被识别成“杀(sha)葱(cong)”等。可以理解，上述每个示例均可以认为是一个混淆发音示例。总结车站名称集合中各车站名称的混淆发音示例的规律后，便可以基于混淆发音规律得到对应拼音的正则表达式，实施例中，将得到的正则表达式记为混淆发音正则表达式，进而得到正则表达式集合，其中，每个易产生混淆发音的拼音对应一个混淆发音正则表达式。需说明，由上述各示例可知，基于车站名称的文字构建正则表达式或者基于车站名称的拼音字符序列构造正则表达式时，会出现一个车站名称对应多个正则表达式的情况，为了保证适应各种混淆发音情况，会构建大量的正则表达式且无法顾虑全部情况，而通过总结单个拼音的混淆发音规律，可以在减小正则表达式数量的同时保证适应各种情况。

进一步的，将拼音字符序列中的各拼音与正则表达式集合中各混淆发音正则表达式进行匹配，以确定适用于拼音的混淆发音正则表达式。举例而言，拼音字符序列为‘shacong’，此时，在正则表达式集合中匹配到与拼音‘sh’对应的混淆发音正则表达式‘sh？’，该混淆发音正则表达式针对翘舌音混淆，同时，还在正则表达式集合中匹配到拼音‘ong’对应的混淆发音正则表达式为‘[ou]ng？’，该混淆发音正则表达式针对韵母混淆。

步骤260、利用匹配到的至少一个混淆发音正则表达式替换所述拼音字符序列中对应的拼音字符，以得到所述备选车站名称的正则表达式。

具体的，若拼音字符序列中某个拼音匹配到对应的混淆发音正则表达式，则用混淆发音正则表达式替换拼音字符序列中该拼音包含的拼字字符。若拼音字符序列中某个拼音未匹配到对应的混淆发音正则表达式，则保留该拼音的拼音字符。按照上述方式便可以得到备选车站名称的正则表达式。例如，拼音字符序列‘shacong’中，拼音‘sh’对应的混淆发音正则表达式为‘sh？’，拼音‘ong’对应的混淆发音正则表达式为‘[ou]ng？’，此时，pinyin＝re.sub('sh？','sh？',pinyin)、pinyin＝re.sub('[ou]ng？','[ou]ng？',pinyin)，即用‘sh？’替换‘sh’、用‘[ou]ng？’替换‘ong’，进而得到备选车站名称的正则表达式为‘sh？ac[ou]ng？’。

步骤270、根据所述正则表达式在车站名称集合中匹配相关的目标车站名称。

根据正则表达式在车站名称集合中匹配目标车站名称。例如，备选车站名称的正则表达式为‘sh？ac[ou]ng？’，之后，基于该正则表达式在车站名称集合中查找各车站名称的拼音字符序列，并得到目标车站名称。此时，可以匹配到‘shacun’、‘sacong’等拼音字符序列对应的车站名称。

步骤280、利用所述目标车站名称替换所述文本识别结果中的所述备选车站名称，以得到最终文本识别结果。

上述，通过获取基于用户的语音请求数据得到的文本识别结果，对文本识别结果进行关键文本提取，进而基于关键文本得到备选车站名称，之后，获取备选车站名称的拼音字符序列，并基于拼音字符序列得到至少一个混淆发音正则表达式，之后，利用至少一个混淆发音正则表达式替换拼音字符序列中对应的拼音字符，以得到备选车站名称的正则表达式，进而利用正则表达式在车站名称集合中匹配相关的目标车站名称，并将文本识别结果中的备选车站名称替换为目标车站名称进而得到最终文本识别结果的技术手段，解决了现有技术中由于用户混淆发音而无法对语音数据进行正确识别的技术问题。通过构建易产生混淆发音的正则表达式，可以保证识别结果的准确性，且基于拼音的混淆发音正则表达式可以适应更多的情况，并对车站名称的拼音有容错能力，即使语音转文字的识别结果出现错误的情况下仍然能够对车站名称进行准确的识别，具有更强的鲁棒性。同时，无需预先对语音请求数据进行标注训练，便可以直接应用，具有较强的泛化能力。并且，通过构建拼音字符向量以及计算欧式距离，并结合文本长度确定关键文本与车站名称的相似度，可以保证得到准确的备选车站名称。

图3为本发明一个实施例提供的一种车站名称识别装置的结构示意图。参考图3，本实施例提供的车站名称识别装置包括：结果获取模块301、名称查找模块302、表达式生成模块303以及结果生成模块304。

其中，结果获取模块301，用于获取基于用户的语音请求数据得到的文本识别结果；名称查找模块302，用于查找所述文本识别结果中出现的备选车站名称；表达式生成模块303，用于生成所述备选车站名称的正则表达式，并根据所述正则表达式在车站名称集合中匹配相关的目标车站名称，所述正则表达式为拼音的混淆发音表达式；结果生成模块304，用于利用所述目标车站名称替换所述文本识别结果中的所述备选车站名称，以得到最终文本识别结果。

在上述实施例的基础上，所述名称查找模块302包括：文本提取单元，用于对所述文本识别结果进行关键文本提取，以得到关键文本列表，所述关键文本列表包含提取到的至少一个关键文本；名称确定单元，用于在所述关键文本列表中查找最优关键文本作为备选车站名称。

在上述实施例的基础上，所述文本提取单元包括：文本剔除子单元，用于剔除所述文本识别结果中的高频文本，得到剔除文本；切割子单元，用于根据所述高频文本在所述文本识别结果中的位置对所述剔除文本进行切割，并将切割后得到的至少一个关键文本组成关键文本列表。

在上述实施例的基础上，所述名称确定单元包括：距离计算子单元，用于分别计算每个关键文本与车站名称集合中各车站名称的欧式距离；文本确定子单元，用于根据所述欧式距离确定最优关键文本，并将所述最优关键文本作为备选车站名称。

在上述实施例的基础上，所述文本确定子单元包括：距离选择孙单元，用于分别在每个所述关键文本对应的各欧式距离中选择最小欧式距离；指数计算孙单元，用于将所述最小欧式距离与对应关键文本的文本长度相除，以得到关键文本的相似度指数；指数选择孙单元，用于在全部所述相似度指数中，选择最小相似度指数对应的关键文本作为查找到的最优关键文本，并将所述最优关键文本作为备选车站名称。

在上述实施例的基础上，所述距离计算子单元包括：拼音字符确定孙单元，用于确定每个所述关键文本包含的拼音字符；数据统计孙单元，用于统计所述拼音字符在对应关键文本中的出现次数以及在字符向量中的索引位置；向量生成孙单元，用于根据所述出现次数和所述索引位置得到对应关键文本的第一拼音字符向量；欧氏距离计算孙单元，用于计算各所述第一拼音字符向量与车站名称集合中各车站名称的第二拼音字符向量之间的欧式距离。

在上述实施例的基础上，所述表达式生成模块303包括：序列获取单元，用于获取所述备选车站名称的拼音字符序列；表达式匹配单元，用于在预设的正则表达式集合中匹配与所述拼音字符序列相关的至少一个混淆发音正则表达式，所述预设的正则表达式集合根据拼音的混淆发音规律得到；表达式替换单元，用于利用匹配到的至少一个混淆发音正则表达式替换所述拼音字符序列中对应的拼音字符，以得到所述备选车站名称的正则表达式，所述正则表达式为拼音的混淆发音表达式；目标查找单元，用于根据所述正则表达式在车站名称集合中匹配相关的目标车站名称。

本实施例提供的车站名称识别装置包含在车站名称识别设备中，可以用于执行上述任意实施例提供的车站名称识别方法，具备相应的功能和有益效果。

图4为本发明一个实施例提供的一种车站名称识别设备的结构示意图。具体的，如图4所示，该车站名称识别设备包括处理器40、存储器41、输入装置42以及输出装置43；该车站名称识别设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；该车站名称识别设备中的处理器40、存储器41、输入装置42、输出装置43可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的车站名称识别方法中的程序指令/模块(例如，车站名称识别装置中的结果获取模块301、名称查找模块302、表达式生成模块303以及结果生成模块304)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行车站名称识别设备的各种功能应用以及数据处理，即实现上述任意实施例提供的车站名称识别方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据车站名称识别设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至车站名称识别设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与车站名称识别设备的用户设置以及功能控制有关的键信号输入，还可以包括图像采集装置(如摄像头)、音频采集装置(麦克风)等。输出装置43可包括显示屏、扬声器等设备。此外，车站名称识别设备还可以包括通信装置，该通信装置用于与后台服务器或其他设备进行数据通信。

上述车站名称识别设备可以用于执行任意实施例提供的车站名称识别方法，具备相应的功能和有益效果。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种车站名称识别方法，该方法包括：

获取基于用户的语音请求数据得到的文本识别结果；

查找所述文本识别结果中出现的备选车站名称；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的车站名称识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的车站名称识别方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种车站名称识别方法，其特征在于，包括：

获取基于用户的语音请求数据得到的文本识别结果；

查找所述文本识别结果中出现的备选车站名称；

2.根据权利要求1所述的车站名称识别方法，其特征在于，所述查找所述文本识别结果中出现的备选车站名称包括：

3.根据权利要求2所述的车站名称识别方法，其特征在于，所述对所述文本识别结果进行关键文本提取，以得到关键文本列表，所述关键文本列表包含提取到的至少一个关键文本包括：

剔除所述文本识别结果中的高频文本，得到剔除文本；

4.根据权利要求2所述的车站名称识别方法，其特征在于，所述在所述关键文本列表中查找最优关键文本作为备选车站名称包括：

5.根据权利要求4所述的车站名称识别方法，其特征在于，所述根据所述欧式距离确定最优关键文本包括：

6.根据权利要求4所述的车站名称识别方法，其特征在于，所述分别计算每个关键文本与车站名称集合中各车站名称的欧式距离包括：

确定每个所述关键文本包含的拼音字符；

7.根据权利要求1所述的车站名称识别方法，其特征在于，所述生成所述备选车站名称的正则表达式包括：

获取所述备选车站名称的拼音字符序列；

8.一种车站名称识别装置，其特征在于，包括：

9.一种车站名称识别设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的车站名称识别方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的车站名称识别方法。