CN109389982A

CN109389982A - 发货信息语音识别方法、系统、设备及存储介质

Info

Publication number: CN109389982A
Application number: CN201811604261.9A
Authority: CN
Inventors: 王东; 张鹏; 罗竞佳; 邓金秋; 刘祥
Original assignee: Jiangsu Manyun Software Technology Co Ltd
Current assignee: Jiangsu Manyun Software Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-02-26

Abstract

本发明提供了一种发货信息语音识别方法、系统、设备及存储介质，该方法包括：采集货主输入的语音信号，对所述语音信号进行文本识别得到输入文本；根据预训练的字向量库，将输入文本中的字转换为字向量，得到对应的字向量序列；将所述字向量序列输入训练好的Bi‑LSTM‑CRF模型，得到实体识别结果，所述实体识别结果包括各个字向量对应的选项框类别和在选项框中的位置；根据实体识别结果，将输入文本填入对应的选项框中。通过采用本发明的方案，可以实现货主通过语音信号输入完成发货信息的填写，提高发货效率和货主使用体验。

Description

发货信息语音识别方法、系统、设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种发货信息语音识别方法、系统、设备及存储介质。

背景技术

在现有的货运平台中，货主在发货时，需要再平台发货页面中填写详细的发货相关信息。然而，对于一些货主来说，刚注册平台时对平台发货页面填写不熟悉时可能会花费大量时间来填写，另外货主时间仓促或认为发货页面填写框太多过于繁琐时，均会降低货主的使用体验。同时在发货量大的情况下，会大大降低发货处理效率。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种发货信息语音识别方法、系统、设备及存储介质，可以实现货主通过语音信号输入完成发货信息的填写，提高发货效率和货主使用体验。

本发明实施例提供一种发货信息语音识别方法，所述方法包括如下步骤：

采集货主输入的语音信号，对所述语音信号进行文本识别得到输入文本；

根据预训练的字向量库，将输入文本中的字转换为字向量，得到对应的字向量序列；

将所述字向量序列输入训练好的Bi-LSTM-CRF模型，得到实体识别结果，所述实体识别结果包括各个字向量对应的选项框类别和在选项框中的位置；

根据实体识别结果，将输入文本填入对应的选项框中。

可选地，所述根据预训练的字向量库，将输入文本中的字转换为字向量之前，还包括如下步骤：

采用预设的选项框匹配规则对所述输入文本进行规则匹配；

将匹配成功的输入文本输入匹配的选项框中；

对于匹配失败的输入文本，根据预训练的字向量库，将输入文本中的字转换为字向量。

可选地，所述Bi-LSTM-CRF模型包括Bi-LSTM层和CRF层，所述将所述字向量序列输入训练好的Bi-LSTM-CRF模型，包括如下步骤：

将所述字向量序列输入训练好的Bi-LSTM层，得到整体网络隐状态序列；

将所述整体网络隐状态序列映射到k维，得到输出概率矩阵，其中k为标注的选项框类别数，所述输出概率矩阵包括每个字向量分类到每个选项框类别的概率；

将所述输出概率矩阵输入训练好的CRF层，得到CRF层输出的实体识别结果。

可选地，所述发货信息语音识别方法还包括如下步骤：

采集多个样式文本，并为所述样式文本中每个字添加分类标签，将样式文本作为训练集，所述分类标签包括每个字所属的选项框类别；

采用所述训练集训练所述Bi-LSTM-CRF模型的Bi-LSTM层，得到所述训练集的样式文本对应的输出概率矩阵；

采用所述输出概率矩阵训练所述Bi-LSTM-CRF模型的CRF层。

可选地，所述得到实体识别结果和所述将输入文本填入对应的选项框之间，还包括如下步骤：

将对应的选项框中预填入的文本采用训练好的贝叶斯分类模型进行识别处理，将所述实体识别结果转换为预设的规范化输出内容。

可选地，所述发货信息语音识别方法还包括如下步骤：

设定多种规范化输出内容和各种规范化输出内容所对应的多种表达文本；

采用所述规范化输出内容所对应的表达文本作为训练集，训练所述贝叶斯分类模型。

将对应的选项框中预填入的文本采用进行格式调整，转换为指定格式输出。

可选地，所述将输入文本填入对应的选项框中，包括如下步骤：

将一选项框中此次识别的文本与前一时刻识别的文本进行比较；

如果此次识别的文本与前一时刻识别的文本连续，则将此次识别的文本填入前一时刻识别的文本之后；

如果此次识别的文本为前一时刻识别的文本的更新，则将此次识别的文本替代前一时刻识别的文本，填入对应的选项框中。

本发明实施例还提供一种发货信息语音识别系统，应用于所述的发货信息语音识别方法，所述系统包括：

语音采集模块，用于采集货主输入的语音信号；

语音识别模块，用于采集货主输入的语音信号，对语音信号进行文本识别得到输入文本；

字向量序列转换模块，用于根据预训练的字向量库，将输入文本中的字转换为字向量，得到对应的字向量序列；

实体识别模块，用于将所述字向量序列输入训练好的Bi-LSTM-CRF模型，得到实体识别结果；

结果输入模块，用于根据实体识别结果，将输入文本填入对应的选项框中。

本发明实施例还提供一种发货信息语音识别设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述的发货信息语音识别方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的发货信息语音识别方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本发明所提供的发货信息语音识别方法、系统、设备及存储介质具有下列优点：

本发明解决了现有技术中的问题，可以实现货主通过语音信号输入完成发货信息的填写，当货主时间仓促、或是刚注册对平台发货页面填写不熟悉、或者觉得发货页面填写框太多较为繁琐时，可以切换语音输入，通过口语化描述完成发货内容的填写；从而避免单一的文字内容填写，扩展货主发货方式，提高发货效率，改善用户使用体验。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的发货信息语音识别方法的流程图；

图2是本发明一实施例的Bi-LSTM-CRF模型识别试题内容结果的过程示意图；

图3是本发明一实施例的发货信息语音识别系统的结构示意图；

图4是本发明一实施例的发货信息语音识别设备的示意图；

图5是本发明一实施例的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

为了解决上述技术问题，本发明实施例提供一种发货信息语音识别方法，是一种针对物流运输领域特定语境下，实现规则、词典、机器学习方法混合的实体识别方法。

如图1所示，所述发货信息语音识别方法包括如下步骤：

S100：采集货主输入的语音信号，对所述语音信号进行文本识别得到输入文本；

S200：根据预训练的字向量库，将输入文本中的字转换为字向量，得到对应的字向量序列；

S300：将所述字向量序列输入训练好的Bi-LSTM-CRF模型，得到实体识别结果，所述实体识别结果包括各个字向量对应的选项框类别和在选项框中的位置；

S400：根据实体识别结果，将输入文本填入对应的选项框中，选项框例如可以是起始点城市、起始时间、费用、支付方式、终止点城市、装卸方式、收货地址等等。

因此，本发明通过步骤S100实时采集货主的语音输入，并将其转换为文本，然后采用步骤S200和步骤S300对文本进行实体识别，将文本与选项框以及选项框中的位置进行关联，最后通过步骤S400将文本填入对应的选项框中。因此，可以实现货主通过语音信号输入完成发货信息的填写，当货主时间仓促、或是刚注册对平台发货页面填写不熟悉、或者觉得发货页面填写框太多较为繁琐时，可以切换语音输入，通过口语化描述完成发货内容的填写。

在该实施例中，步骤S100中将语音信号转换为文本内容的方法可以采用现有技术中的语音转文本方法，在将语音转换为文本之后，并无法确定文本填入哪个选项框，因此还需要后续步骤S200和步骤S300进一步将输入文本与选项框进行关联。这样，对于货主来说，进行语音输入时，直接说话即可，而无需去手动操作选择对应的选项框，节省了货主的操作时间，也提高了货主的使用体验。

步骤S200之前，还可以采用预设的选项框匹配规则对输入文本进行规则匹配。即在步骤S100和步骤S200之间，还包括如下步骤：

采用预设的选项框匹配规则对所述输入文本进行规则匹配；例如对于起始点城市、起始时间、费用等，直接与选项框模板进行匹配，匹配方式可以采用正则匹配等等；

如果文本匹配成功，则将匹配成功的输入文本输入匹配的选项框中；

对于匹配失败的输入文本，则进一步采用步骤S200和步骤S300进行分类。

步骤S200中，预设的字向量库可以是预先训练的字向量库，里面包括多个发货时常用的字和每个字所对应的一定维度的字向量。

在该实施例中，所述Bi-LSTM-CRF模型包括Bi-LSTM层和CRF层。Bi-LSTM即双向LSTM同时考虑了过去的特征(通过前向过程提取)和未来的特征(通过后向过程提取)。

所述步骤S200中，将所述字向量序列输入训练好的Bi-LSTM-CRF模型，包括如下步骤：

如图2所示，为本发明一实施例的步骤S200和步骤S300对输入文本进行处理的过程示意图。

首先使用预训练生成的字向量库对输入文本中的字进行低维表示(wordembedding)，然后将字向量序列输入到Bi-LSTM网络，将前向LSTM输出的隐状态序列与后向LSTM输出的隐状态序列按位置进行拼接,作为整体网络隐状态序列(h₁，h₂，...，h_n)∈R^n×m。接着，通过线性层将隐状态向量从m维映射到k维，k是标注的标签类别数，从而得到自动提取的句子特征，记作输出概率矩阵P＝(p₁，p₂，...，p_n)∈R^n×k,这里p_i∈R^k的每一维p_ij都可以看作字x_i分类到第j个标签的打分值。最后，将矩阵P输入CRF层，CRF层是基于输出概率矩阵P和状态转移矩阵A对输出标签二元组进行了建模的,通过动态规划，根据得到的最优路径进行标注。最终将选项框匹配规则匹配的结果与Bi-LSTM-CRF模型的识别结果进行合并后输出。

在该实施例中，所述发货信息语音识别方法还包括如下步骤：

采用所述输出概率矩阵训练所述Bi-LSTM-CRF模型的CRF层。

此外，由于本发明主要应用于物流货运领域，发货方往往来自全国各地，其口音也会各有不同。为了更加方便不同用户的使用，该实施例还进一步增加了文本规范化处理的过程。在该实施例中，所述步骤S300得到实体识别结果和步骤S400所述将输入文本填入对应的选项框之间，还包括如下步骤：

将对应的选项框中预填入的文本采用训练好的贝叶斯分类模型进行识别处理，将所述实体识别结果转换为预设的规范化输出内容。贝叶斯分类模型是一类分类算法模型的总称，这类算法皆以贝叶斯定理为基础，因此统称为贝叶斯分类模型。其原理是：通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

这一步骤主要是针对口语化描述或者语音转文字谐音错别字等情况，采用贝叶斯分类模型进行识别处理，例如“玉米棒子”识别为“玉米”，“玉米”即为规范化输出内容，“3吨玉米倒付”识别为“3吨玉米到付”，“3吨玉米到付”即为规范化输出内容。

设定多种规范化输出内容和各种规范化输出内容所对应的多种表达文本；例如，对于“玉米”来说，其规范化输出内容为“玉米”，其多种表达文本可以是“玉米棒子”、“棒子”、“雨米”、“玉密”等等；

采用所述规范化输出内容所对应的表达文本作为训练集，训练所述贝叶斯分类模型，得到的训练好的贝叶斯分类模型可以用于经过实体识别之后的输入文本的规范化处理。

在该实施例中，所述步骤S300得到实体识别结果和所述步骤S400将输入文本填入对应的选项框之间，还包括如下步骤：

将对应的选项框中预填入的文本采用进行格式调整，转换为指定格式输出。例如，将时间的选项框的输入文本输出为固定格式“2018年01月01日”，将地址的选项框的输入文本输出为固定格式“江苏省南京市鼓楼区”等等。

在该实施例中，，在步骤S300之后，还包括历史结果融合的步骤，将本段音频流实体识别记过与用户前几段音频流识别结果进行比较，包括新增实体内容、原有实体识别结果更新等等。具体地，所述将输入文本填入对应的选项框中，包括如下步骤：

如图3所示，本发明实施例还提供一种发货信息语音识别系统，应用于所述的发货信息语音识别方法，所述系统包括：

语音采集模块M100，用于采集货主输入的语音信号；

语音识别模块M200，用于采集货主输入的语音信号，对语音信号进行文本识别得到输入文本；

字向量序列转换模块M300，用于根据预训练的字向量库，将输入文本中的字转换为字向量，得到对应的字向量序列；

实体识别模块M400，用于将所述字向量序列输入训练好的Bi-LSTM-CRF模型，得到实体识别结果；

结果输入模块M500，用于根据实体识别结果，将输入文本填入对应的选项框中。

因此，本发明通过语音采集模块M100实时采集货主的语音输入，并通过语音识别模块M200将其转换为文本，然后采用字向量序列转换模块M300和实体识别模块M400对文本进行实体识别，将文本与选项框以及选项框中的位置进行关联，最后通过结果输入模块M500将文本填入对应的选项框中。因此，可以实现货主通过语音信号输入完成发货信息的填写，当货主时间仓促、或是刚注册对平台发货页面填写不熟悉、或者觉得发货页面填写框太多较为繁琐时，可以切换语音输入，通过口语化描述完成发货内容的填写。

在本发明的具体实施方式中，上述各个功能模块的功能实现可以采用上述发货信息语音识别方法的具体实施方式来实现，例如，语音识别模块M200可以采用上述步骤S100的具体实施方式来实现，字向量序列转换模块M300可以采用上述步骤S200的具体实施方式来实现，实体识别模块M400可以采用上述步骤S300的具体实施方式来实现，结果输入模块M500可以采用上述步骤S400的具体实施方式来实现，在此不予赘述。

本发明实施例还提供一种发货信息语音识别设备，包括处理器；存储器，其中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行所述的发货信息语音识别方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

因此，本发明的发货信息语音识别设备可以实现货主通过语音信号输入完成发货信息的填写，当货主时间仓促、或是刚注册对平台发货页面填写不熟悉、或者觉得发货页面填写框太多较为繁琐时，可以切换语音输入，通过口语化描述完成发货内容的填写。

下面参照图4来描述根据本发明的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备600以通用计算设备的形式表现。电子设备600的组合可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组合(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的发货信息语音识别方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，与现有技术相比，本发明所提供的发货信息语音识别方法、系统、设备及存储介质具有下列优点：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种发货信息语音识别方法，其特征在于，包括如下步骤：

根据实体识别结果，将输入文本填入对应的选项框中。

2.根据权利要求1所述的发货信息语音识别方法，其特征在于，所述根据预训练的字向量库，将输入文本中的字转换为字向量之前，还包括如下步骤：

采用预设的选项框匹配规则对所述输入文本进行规则匹配；

将匹配成功的输入文本输入匹配的选项框中；

3.根据权利要求1所述的发货信息语音识别方法，其特征在于，所述Bi-LSTM-CRF模型包括Bi-LSTM层和CRF层，所述将所述字向量序列输入训练好的Bi-LSTM-CRF模型，包括如下步骤：

4.根据权利要求3所述的发货信息语音识别方法，其特征在于，所述方法还包括如下步骤：

采用所述输出概率矩阵训练所述Bi-LSTM-CRF模型的CRF层。

5.根据权利要求1所述的发货信息语音识别方法，其特征在于，所述得到实体识别结果和所述将输入文本填入对应的选项框之间，还包括如下步骤：

6.根据权利要求5所述的发货信息语音识别方法，其特征在于，所述方法还包括如下步骤：

7.根据权利要求1所述的发货信息语音识别方法，其特征在于，所述得到实体识别结果和所述将输入文本填入对应的选项框之间，还包括如下步骤：

8.根据权利要求1所述的发货信息语音识别方法，其特征在于，所述将输入文本填入对应的选项框中，包括如下步骤：

9.一种发货信息语音识别系统，其特征在于，应用于权利要求1至8中任一项所述的发货信息语音识别方法，所述系统包括：

语音采集模块，用于采集货主输入的语音信号；

10.一种发货信息语音识别设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任一项所述的发货信息语音识别方法的步骤。

11.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至8中任一项所述的发货信息语音识别方法的步骤。