CN113794808B

CN113794808B - 代驾电话下单方法及系统

Info

Publication number: CN113794808B
Application number: CN202111022548.2A
Authority: CN
Inventors: 于杨
Original assignee: Beijing Yixinyixing Automotive Technology Development Co ltd
Current assignee: Beijing Yixinyixing Automotive Technology Development Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2024-01-30
Anticipated expiration: 2041-09-01
Also published as: CN113794808A

Abstract

本发明提供了一种代驾电话下单方法及系统，所述方法包括以下步骤：使用语音合成技术询问用户下单地址；将用户回答语音转换成文字；利用命名实体识别技术识别出文字中的地理位置名词；使用地理位置名词作为查询条件在POI数据库中搜索所得到相应的POI；使用语音合成技术将POI信息的描述文字合成为语音，询问用户下单POI是否正确；用户通过电话按键的方式确认后，生成代驾订单；系统包括电话交换模块、会话模块、语音处理模块、POI模块和订单模块。本发明通过借助于人工智能技术，完成与代驾需求用户的交互，并且通过POI进一步增加获得用户订单地址的准确性和速度，能够提升用户的使用体验并且替代人工服务，节省成本。

Description

代驾电话下单方法及系统

技术领域

本发明涉及互联网领域，尤其涉及一种代驾电话下单方法及系统。

背景技术

随着国家的倡导和人们安全意识的提高，喝酒不开车已经成为一种社会共识，代替驾驶服务很好的解决了广大车主们酒后所面临的困难。随着技术的进步，LBS(LocationBased Services基于位置服务)技术也被应用到代驾服务中，用户下单时提供地理信息点，代驾司机根据地理信息点利用导航软件快速到达客服所在地，提供代驾服务。代驾平台通常会为用户提供多种多样的下单方式，常见代驾下单方式有电话下单、手机App、微信小程序等，借助任何方式进行代驾下单，关键都在于获取用户下单的地理信息点。

地理信息点即POI(Point of Interest)，在地理信息系统中，POI用来描述某个地标信息，如楼宇、酒店、医院等，通常一条POI包括地标的名称、地址和坐标等地址位置信息。在手机App、微信小程序等基于智能手机下单的场景下，POI可以依据位置坐标在POI数据库查询得到，但在用户拨打客服电话下单的场景下，由于无法获得位置坐标，只能由客服人员与用户通过电话语音沟通，根据用户的描述确定POI，完成下单。在现有技术条件下，常见的做法是为客服人员提供一个带有POI搜索功能的辅助下单界面，在电话拨通后，首先客服人员会询问用户所在的位置，用户回答下单地址的大致描述，客服人员在辅助下单界面使用文字输入描述内容进行搜索，系统会根据关键字与POI名称或地址匹配程度，筛选出备选POI列表，再依据用户之前的描述选择列表中的与用户描述最接近的一条POI，然后为用户复述POI的地址和名称，待用户确认地址后，使用该POI下单。

在现有的电话代驾下单方式中存在一些弊端：首先，单次下单流程中地址确认过程需要客服人员与用户反复沟通，时间开销取决于客服人员的专业性；其次，系统并发度受限于客服人员的数量，此外下单过程中的用户体验完全由客服人员的服务态度所决定。

发明内容

鉴于背景技术中存在的问题，本发明的目的在于提供一种代驾电话下单方法及系统，其借助于人工智能技术，能够自动完成与代驾需求用户的信息交互，并且通过POI进一步增加获得用户订单地址的准确性和速度，从而提升了用户的使用体验并且替代了人工服务，由此节省了成本。

为了实现上述目的，本发明提供了一种代驾电话下单方法，其包括以下步骤：S1、使用语音合成技术将下单地址询问话术的文本合成为语音，询问用户下单地址；S2、利用语音识别技术，将用户回答语音转换成文字；S3、利用命名实体识别技术识别出文字中的地理位置名词；S4、使用地理位置名词作为查询条件在POI数据库中搜索所得到相应的POI；S5、使用语音合成技术将POI信息的描述文字合成为语音，询问用户下单POI是否正确；S6、用户通过电话按键的方式确认后，生成代驾订单。

在根据一些实施例的一种代驾电话下单方法中，步骤S3中所述命名实体识别技术包括以下内容：条件随机场模型，用于提取出文本中的地理位置的命名实体，通过CRF++工具基于人工标注的语料训练而成。

在根据一些实施例的一种代驾电话下单方法中，步骤S2包括以下内容：S2.1、通过预先训练好的噪音分离神经网络模型，将用户语音分离为人声和背景声；S2.2、利用语音识别技术识别人声并将人声转换成文字；S2.3、通过预先训练好的背景识别神经网络模型对背景声进行识别，并且生成相应的背景关键词，该背景关键词为描述背景声的场合的名词。

在根据一些实施例的一种代驾电话下单方法中，步骤S2.2中，在将人声转换成文字前，先对人声经过鉴别处理，鉴别处理包括以下内容：将人声输入预先训练好的醉酒判断神经网络模型，输出值为0-1，即醉酒程度的权重值，若输出值大于等于0.4，则直接转人工客服处理。

在根据一些实施例的一种代驾电话下单方法中，S4步骤中还包括以下内容：将步骤S2.3中生成的背景关键词与步骤S3中生成的地理位置名词同时作为关键字在POI数据库中进行搜索。

在根据一些实施例的一种代驾电话下单方法中，步骤S1包括以下内容：通过用户手机号码判断用户的归属地，并将判断所得的归属地应用到询问的话术中。

本发明还提供了一种代驾电话下单系统，其包括：语音处理模块，基于语音合成与语音识别技术，实现文本与语音的互转功能，包括语音识别子模块和语音合成子模块；电话交换模块，负责响应用户电话，为语音处理模块提供语音数据传递提供接口；会话模块，从语音处理模块获得相应的文本信息，根据会话逻辑基于获取下单地址的目的生成相应的话术的文本，并将生成的文本传送到语音处理模块，反复进行上述操作，直到获得下单地址，最后，完成下单过程中的人机交互；POI模块，包括地理位置名词识别子模块和POI数据库，实时监控语语音识别子模块生成的文本信息，从文本信息中识别地理位置，并在POI数据库中进行搜索，并将搜索结果反馈到会话模块；订单模块，根据会话模块中获得下单地址创建代驾订单。

在根据一些实施例的一种代驾电话下单系统中，所述会话模块包括会话逻辑子模块和聚焦询问子模块；会话逻辑子模块，根据获取的信息和当前的会话场景生成用于交流的话术的文本；聚焦询问子模块，当无法识别到地理位置名字或无法搜索到POI时，从地理范围上逐步缩小，生成相应的话术文本，直到获得订单地址。

在根据一些实施例的一种代驾电话下单系统中，语音处理模块还包括以下内容：噪音分离神经网络模块，将用户语音分离为人声和背景声。

在根据一些实施例的一种代驾电话下单系统中，语音处理模块还包括以下内容：背景识别神经网络模块，内含预先训练好的背景识别神经网络模型，对背景声进行识别，并且生成相应的背景关键词，该背景关键词为描述背景声的场合的名词；醉酒判断神经网络模块，内含预先训练好的醉酒判断神经网络模型，将人声输入到模型中，输出值为0-1，若输出值大于等于0.4，则直接转人工客服处理。

本发明的有益效果如下：

(1)其借助于人工智能技术，完成与代驾需求用户的交互，并且通过POI进一步增加获得用户订单地址的准确性和速度，能够提升用户的使用体验并且替代人工服务，节省成本；

(2)噪音分离神经网络模型的使用，能够将用于语音分离为人声和背景声，一方面，减少了干扰能够提高对人声的识别的准确率；另一方面，通过对背景声的特征的提取，能够对场合的类型进行锁定，能够挺高获得订单地址的效率；

(3)由于需求代驾的用于多为饮酒用户，因此醉酒神经网络模型的使用能够避免与醉酒程度较高的用户的无效沟通，将醉酒比较严重的客户直接通过人工处理，能够提高沟通的速度和质量。

附图说明

图1是本发明中代驾电话下单的方法流程图；

图2是本发明中代驾电话下单系统的结构示意图；

图3是本发明中聚焦询问流程图；

图4是本发明实施例二中语音处理模块的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。下面参照附图来详细说明根据本申请的一种代驾电话下单方法及系统。

参照图1和图2，本申请的代驾电话下单系统包括语音处理模块、电话交换模块、会话模块、POI模块和订单模块。

语音处理模块用于基于语音合成与语音识别技术，实现文本与语音的互转功能。具体地，语音处理模块包括语音识别子模块和语音合成子模块。

电话交换模块用于负责响应用户电话，为语音处理模块提供语音数据传递接口。

会话模块用于从语音处理模块获得相应的文本信息，根据会话逻辑基于获取下单地址的目的生成相应的话术的文本，并将生成的文本传送到语音处理模块，反复进行上述操作，直到获得下单地址，最后，完成下单过程中的人机交互。

POI模块包括地理位置名词识别子模块和POI数据库，用于实时监控语语音识别子模块生成的文本信息，从文本信息中识别地理位置，并在POI数据库中进行搜索，并将搜索结果反馈到会话模块。订单模块用于根据会话模块中获得下单地址创建代驾订单。

在本申请的代驾电话下单系统中，基于语音处理模块、电话交换模块、会话模块、POI模块和订单模块之间的信息交互、并借助于人工智能技术，实现了为用户提供智能创建代驾订单的在线服务，减少了人工服务流程，从而极大地节省了成本。

在一些实施例中，会话模块包括会话逻辑子模块和聚焦询问子模块。其中，会话逻辑子模块用于根据获取的信息和当前的会话场景生成用于交流的话术的文本。聚焦询问子模块用于当无法识别到地理位置名字或无法搜索到POI信息时，从地理范围上逐步缩小，生成相应的话术文本，直到获得订单地址。

在一些实施例中，聚焦询问子模块从地理范围上逐步缩小的操作逻辑为：城市-区县-街道-具体位置，由此进行逐级缩小。

在一些实施例中，语音处理模块还包括噪音分离神经网络模块，用于将用户语音分离为人声和背景声。这里，基于噪音分离神经网络模型的使用，能够将用户语音分离为人声和背景声，其一方面减少了背景声的干扰、提高对了对人声的识别准确率；另一方面通过对背景声的特征的提取，能够对场合的类型进行锁定，由此有助于提高获得订单地址的效率。

在一些实施例中，语音处理模块还包括：背景识别神经网络模块，内含预先训练好的背景识别神经网络模型，对背景声进行识别，并且生成相应的背景关键词，该背景关键词为描述背景声的场合的名词，具体包括但不仅限于KTV、酒店、车站、马路、公园等；醉酒判断神经网络模块，内含预先训练好的醉酒判断神经网络模型，将人声输入到模型中，输出值为0-1，即醉酒程度的权重值，1为最大，若输出值大于等于0.4，则直接转人工客服处理。由于需求代驾的用户多为饮酒用户，则使用醉酒神经网络模型能够避免与醉酒程度较高的用户的无效沟通，将醉酒比较严重的客户直接通过人工处理，由此能够提高沟通的速度和质量。

参照图1和图2，在一些实施例中，本申请的代驾电话下单系统包括语音处理模块、电话交换模块、会话模块、POI模块和订单模块，所述系统采用的方法包括步骤S1-S6。

S1、用户呼入电话后，电话交换模块负责响应电话并通知会话模块，会话模块中会话逻辑子模块负责控制会话流程。在会话逻辑子模块控制下，语音处理模块中的语音合成子模块使用语音合成技术，即TTS(Text To Speech)引擎，将下单地址询问话术的文本转成语音，通过电话交换模块播放给用户，以询问用户下单地址。

在实际实施中，下单流程首先要确定用户所在城市，可以通过用户手机号归属地确定用户所在城市；地址询问话术中会包含城市名称，例如用户手机号归属的为北京，地址询问话术为“您好，我是代驾电话下单助手，请问您在北京市的什么位置”。

S2、用户会在下单地址询问话术的引导下，描述自己所在地址的大致信息。当用户对下单地址的描述表达完成后，电话交换模块负责将用户回答的语音保存成文件，然后传递给语音处理模块，语音处理模块语音识别子模块，基于语音识别技术，语音识别子模块将会话中用户所说内容，由语音转成文本形式。

在实际实施中，使用静音检测的方式判断用户是否表达完成，当静音出现并持续2秒后，判定用户描述完成，开始语音识别。

S3、会话逻辑子模块的控制下，用户回答的文本信息传递到POI模块中的地理位置名字识别子模块，该模块利用命名实体识别技术提取出文字中的地址位置名词，如果行政区划、地点名称、地址等。

在实际实施中，描述下单地址是用户会处于对话的语境下，描述内容口语化，并夹杂着一些与地址位置信息无关的内容，利用命名实体识别技术从下单地址信息的描述文字提取出地址位置名词。具体的，命名实体识别技术包括以下内容：条件随机场模型，用于提取出文本中的地理位置的命名实体，通过CRF++工具基于人工标注的语料训练而成。在训练时，将过往用户下单过程中的语音数据通过语音识别的方式转成文本，人工标注出文本内容的地址位置名词，以标注过的文本作为训练语料，训练条件随机场模型。

在实际实施中，利用条件随机场模型，识别出用户回答内容中的地址位置名词。如用户实际回答内容为“我在这个三里屯SOHO南侧”，“三里屯SOHO”将作为地理位置信息被条件随机场模型识别。

S4、POI模块以步骤3识别得到地址位置名词为关键字，在POI数据库中搜索与关键字匹配的POI。

在实际实施中，如果搜索结果中出现多条相似的备选POI，则采用最长公共子序列算法计算POI名称与下单地址关键字的相似度，取多条备选POI中相似度最高的作为下单POI。

S5、确定下单POI后，会话逻辑子模块负责拼接下单POI的信息，拼接得到文字描述为代驾下单地址，语音合成子模块利用语音合成技术，即TTS(Text To Speech)引擎，将文字描述转成语音，电话交换模块将语音播放给用户。

在实际实施中，拼接格式为“POI所在行政区划”+“POI地址”+“POI名称”。

S6、电话交换模块将下单地址语音播放完成后，使用标准话术询问用户下单地址信息是否正确，实际实施时询问话术为“确认下单地址请按1，下单地址错误请按0转人工服务”，通知用户使用电话按键的方式确认代驾下单地址。电话交换模块接收到用户的电话按键信息后，传递给会话逻辑子模块，该模块将用户电话号和下单地址提交给订单模块，订单模块生成代驾订单，完成代驾下单流程。

在实际实施中，如果用户对下单地址不认可，按电话0键后，电话交换系统会将用户电话转发给人工客服。

需要特别说明的是，在实际实施中，用户在询问的应答中对下单地址的描述不清晰，会导致无法识别得到地址位置名词，或者是无法搜索到下单POI，当这种情况出现时，会触发下单地址聚焦询问流程，按照城市-区县-街道-具体位置逐级缩小范围，聚焦某个区域，通过一系列询问话术引导用户逐步清晰描述出代驾下单地址位置，同样使用语音合成技术，即TTS(Text To Speech)引擎，将询问话术文本转成语音，播放给用户。用户回答后，同样利用语音识别将回答内容转成文本，在文本中识别地址位置名词，此时的地址位置名词通常是行政区划关键字，然后在POI数据库中查询行政区划类型的POI，如果查询到对应的行政区划，则聚焦到该行政区划进行询问，整个流程在会话模块的聚焦询问子模块的控制下进行。

聚焦询问流程参考图3多轮询问状态机，当进入到多轮询问流程中后，会进入城市询问状态，使用话术“请问您在哪个城市”询问用户所在城市，如果从用户回答中确定用户下单城市，则在记录下城市名称后进入区县询问状态，使用话术“请问您在XX城市的哪个区”询问用户所在具体区县，如果从用户回答中确定用户下单区县，则记录下区县名称后进入街道询问状态，使用话术“请问您在XX城市的XX区的哪个街道附近”，如果从用户回答中确定用户下单街道，则记录下街道名称后进入下单地址询问状态，在该状态下，询问下单地址及用户回答处理方法与首次询问下单地址相同，获得下单备选POI后，使用之前获得的城市、区县、街道对搜索得到的备选POI列表进行过滤，选择城市、区县、街道相同的POI为下单POI。

需要说明的是，在实际实施中，如果在多轮询问流程结束后仍然没有得到合适的下单地址，系统会通过电话交换模块将用户电话转接到人工客服，由人工客服与用户沟通。

在一些实施例中，参照图4，本申请的代驾电话下单系统包括语音处理模块、电话交换模块、会话模块、POI模块和订单模块。其中，所述语音处理模块还包括噪音分离神经网络模块和醉酒判断神经网络模块。所述系统采用的方法与上述实施例的不同点在于，步骤S2包括以下内容。

S2.1、通过预先训练好的噪音分离神经网络模型，将用户语音分离为人声和背景声；单独的人声抛开背景声的影响能够在后续的过程中更加容易、准确的识别到。

S2.2对人声经过鉴别处理，鉴别处理包括以下内容：将人声输入预先训练好的醉酒判断神经网络模型，输出值为0-1，即醉酒程度的权重值，若输出值大于等于0.4，则直接转人工客服处理。由于代驾的用户都是饮酒用户，因此对用户的醉酒程度进行判断是非常有必要的，能够进行针对性服务，避免醉酒客户耐心耗尽而造成的用户流失。

S2.3、利用语音识别技术识别人声并将人声转换成文字。

S2.4、通过预先训练好的背景识别神经网络模型对背景声进行识别，并且生成相应的背景关键词，该背景关键词为描述背景声的场合的名词，包括但不仅限于KTV、酒店、车站、马路、公园。生成的背景关键词能够与后续的地理位置名字同时作为关键字进行检索，从而更加快速的获得搜索结果。或者背景关键词也能够对搜索结果的进行校验，从而能够判搜索结果的准确性。

综上所述，本发明的代驾电话下单方法及系统具有以下优点：(1)借助于人工智能技术，完成与代驾需求用户的交互，并且通过POI进一步增加获得用户订单地址的准确性和速度，能够提升用户的使用体验并且替代人工服务，节省成本；(2)噪音分离神经网络模型的使用，能够将用于语音分离为人声和背景声，一方面，减少了干扰能够提高对人声的识别的准确率；另一方面，通过对背景声的特征的提取，能够对场合的类型进行锁定，能够挺高获得订单地址的效率；(3)由于需求代驾的用于多为饮酒用户，因此醉酒神经网络模型的使用能够避免与醉酒程度较高的用户的无效沟通，将醉酒比较严重的客户直接通过人工处理，能够提高沟通的速度和质量。

Claims

1.一种代驾电话下单方法，其特征在于，包括以下步骤：

S1、使用语音合成技术将下单地址询问话术的文本合成为语音，询问用户下单地址；

S2、利用语音识别技术，将用户回答语音转换成文字；

S3、利用命名实体识别技术识别出文字中的地理位置名词；

S4、使用地理位置名词作为查询条件在POI数据库中搜索所得到相应的POI；

S5、使用语音合成技术将POI信息的描述文字合成为语音，询问用户下单POI是否正确；

S6、用户通过电话按键的方式确认后，生成代驾订单；

步骤S2包括以下内容：

S2.1、通过预先训练好的噪音分离神经网络模型，将用户语音分离为人声和背景声；

S2.2、利用语音识别技术识别人声并将人声转换成文字；

S2.3、通过预先训练好的背景识别神经网络模型对背景声进行识别，并且生成相应的背景关键词，所述背景关键词为描述背景声的场合的名词；

步骤S2.2中，在将人声转换成文字前，先对人声经过鉴别处理，鉴别处理包括以下内容：将人声输入预先训练好的醉酒判断神经网络模型，输出值为0-1，即醉酒程度的权重值，若输出值大于等于0.4，则直接转人工客服处理。

2.根据权利要求1所述的代驾电话下单方法，其特征在于，步骤S3中所述命名实体识别技术包括以下内容：

条件随机场模型，用于提取出文本中的地理位置的命名实体，通过CRF++工具基于人工标注的语料训练而成。

3.根据权利要求1所述的代驾电话下单方法，其特征在于，S4步骤中还包括以下内容：将步骤S2.3中生成的背景关键词与步骤S3中生成的地理位置名词同时作为关键字在POI数据库中进行搜索。

4.根据权利要求1所述的代驾电话下单方法，其特征在于，步骤S1包括以下内容：通过用户手机号码判断用户的归属地，并将判断所得的归属地应用到询问的话术中。

5.一种代驾电话下单系统，其特征在于，用于实现权利要求1-4中任一项所述的代驾电话下单方法，所述代驾电话下单系统包括：

语音处理模块，基于语音合成与语音识别技术，实现文本与语音的互转功能，包括语音识别子模块和语音合成子模块；

电话交换模块，负责响应用户电话，为语音处理模块提供语音数据传递接口；

会话模块，从语音处理模块获得相应的文本信息，根据会话逻辑基于获取下单地址的目的生成相应的话术的文本，并将生成的文本传送到语音处理模块，反复进行上述操作，直到获得下单地址，最后，完成下单过程中的人机交互；

POI模块，包括地理位置名词识别子模块和POI数据库，实时监控语语音识别子模块生成的文本信息，从文本信息中识别地理位置，并在POI数据库中进行搜索，并将搜索结果反馈到会话模块；

订单模块，根据会话模块中获得下单地址创建代驾订单；

语音处理模块还包括以下内容：

噪音分离神经网络模块，将用户语音分离为人声和背景声；

语音处理模块还包括以下内容：

背景识别神经网络模块，内含预先训练好的背景识别神经网络模型，对背景声进行识别，并且生成相应的背景关键词，该背景关键词为描述背景声的场合的名词；

醉酒判断神经网络模块，内含预先训练好的醉酒判断神经网络模型，将人声输入到模型中，输出值为0-1，若输出值大于等于0.4，则直接转人工客服处理。

6.根据权利要求5所述的代驾电话下单系统，其特征在于，所述会话模块包括会话逻辑子模块和聚焦询问子模块；

会话逻辑子模块，根据获取的信息和当前的会话场景生成用于交流的话术的文本；聚焦询问子模块，当无法识别到地理位置名字或无法搜索到POI时，从地理范围上逐步缩小，生成相应的话术文本，直到获得订单地址。