CN112860724A - 一种用于人机融合客服系统的自动地址纠偏方法 - Google Patents
一种用于人机融合客服系统的自动地址纠偏方法 Download PDFInfo
- Publication number
- CN112860724A CN112860724A CN202011566029.8A CN202011566029A CN112860724A CN 112860724 A CN112860724 A CN 112860724A CN 202011566029 A CN202011566029 A CN 202011566029A CN 112860724 A CN112860724 A CN 112860724A
- Authority
- CN
- China
- Prior art keywords
- address
- confusion
- field
- input sample
- party map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000010354 integration Effects 0.000 title claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000003321 amplification Effects 0.000 claims abstract description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 18
- 238000012937 correction Methods 0.000 abstract description 8
- 238000012790 confirmation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种用于人机融合客服系统的自动地址纠偏方法,先通过ASR模型将地址语音转换为地址文本,再通过NLP模型处理地址文本形成修正地址文本,再获取地址信息的结构化数据,最后输入第三方地图供应商的POI查询接口获取最终地址信息;对用于NLP模型训练的数据集中的每一个输入样本进行拼音编码,并按照常见语音错误对其进行混淆处理,形成该输入样本的混淆集,将输入样本连同其混淆集一起作为扩增输入样本,对NLP模型进行训练。本发明针对地址语音存在的常见语音错误,利用输入样本的拼音编码及其混淆集对NLP模型的训练数据进行扩增,具备辨别常见语音错误的能力,在自然语言处理这一步实现初步纠偏。
Description
技术领域
本发明涉及人机融合技术领域,具体是一种用于人机融合客服系统的自动地址纠偏方法。
背景技术
传统人机融合方案,受限于早期深度学习技术的发展瓶颈,基本停滞于基于规则的文本语义知识库辅助层面,机器人辅助坐席的手段和能力非常有限。实际应用中,对于类似高精度实时转写推送、实时高精度话术提醒、实时高精度地址纠偏、实时工单总结等智能辅助场景具有迫切需求,亟需一套完整的坐席辅助平台以支撑相关场景的能力输出。
以实时高精度地址纠偏为例,在坐席人人对话场景中,涉及坐席针对用户地址说法做详细确认的业务非常多。传统方式主要靠坐席人工监听后,到第三方地图系统中人工搜索,并经多轮对话才能够最终确认完整地址信息;相对智能的方式也只有基于规则的地址纠偏,效果不佳。
现有的地址纠偏技术,对于呼叫中心而言,存在坐席工作效率较低,用户等待时间长,地址检索出错率高,整体体验较差的问题。
发明内容
针对现有地址纠偏技术存在的技术缺陷,本发明提供一种用于人机融合客服系统的自动地址纠偏方法,能够有效提升坐席在地址确认环节的工作效率,同时降低出错率,降低用户等待时间,提升用户体验。
一种用于人机融合客服系统的自动地址纠偏方法,先通过ASR模型将地址语音转换为地址文本,再通过NLP模型处理地址文本形成修正地址文本,再获取地址信息的结构化数据,最后输入第三方地图供应商的POI查询接口获取最终地址信息;
对用于NLP模型训练的数据集中的每一个输入样本进行拼音编码,并按照常见语音错误对其进行混淆处理,形成该输入样本的混淆集,将输入样本连同其混淆集一起作为扩增输入样本,对NLP模型进行训练。
进一步的,地址信息的结构化数据通过四级提槽模型获取,四级提槽模型输入数据为修正地址文本,输出数据为分别对应于省字段、市字段、区字段、详细地址字段的具体信息。
进一步的,将地址信息的结构化数据输入第三方地图供应商的POI查询接口获取最终地址信息,包括以下步骤:
步骤1,对详细地址字段的具体信息进行拼音编码,并按照常见语音错误对其进行混淆处理,形成验证混淆集;
步骤2,结合省字段、市字段、区字段与详细地址字段,输入第三方地图供应商的POI查询接口,在该省市区范围内查找该详细地址,得到第三方地图供应商按照相关性返回的最相近地址;
步骤3,对第三方地图供应商返回的最相近地址进行拼音编码,并按照常见语音错误对其进行混淆处理,形成结果混淆集;
步骤4,对比结果混淆集和验证混淆集中的字符串,若仅存在常见语音错误,则判定该结果混淆集对应的地址可靠,返回该地址,否则丢弃该地址,返回空地址。
进一步的,若第三方地图供应商仅有1个行政区槽位,则先结合区字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息;
若返回为空地址,则再结合市字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息;
若返回仍为空地址,则再结合省字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息。
进一步的,常见语音错误包括但不限于前鼻音与后鼻音的混淆、平舌音与翘舌音的混淆。
本发明针对地址语音存在的常见语音错误,利用输入样本的拼音编码及其混淆集对NLP模型的训练数据进行扩增,具备辨别常见语音错误的能力,在自然语言处理这一步实现初步纠偏;通过地址信息结构化,以及具有拼音容错功能的地址匹配算法,大大提升了第三方地图供应商返回地址的准确率,大大降低了坐席人工干预处理的工作量。
附图说明
图1为自动地址纠偏方法主要流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
一种用于人机融合客服系统的自动地址纠偏方法,如图1所示,先通过ASR模型将地址语音转换为地址文本,再通过NLP模型处理地址文本形成修正地址文本,再获取地址信息的结构化数据,最后输入第三方地图供应商的POI查询接口获取最终地址信息。NLP模型可采用自然语言处理常用的Transformer模型。
客服在工作过程中,会遇到不同口音的人,例如部分地区居民无法区分前鼻音与后鼻音,或者无法区分平舌音与翘舌音。为此,对用于NLP模型训练的数据集中的每一个输入样本进行拼音编码,并按照常见语音错误对其进行混淆处理,形成该输入样本的混淆集,将输入样本连同其混淆集一起作为扩增输入样本,对NLP模型进行训练,使得训练好的NLP模型具备辨别常见语音错误的能力。当然,本实施例中的常见语音错误并不局限于前鼻音与后鼻音的混淆、平舌音与翘舌音的混淆,其他形式的常见语音错误,也可以加入混淆集,用于NLP模型的训练,提升NLP模型辨别常见语音错误的能力。
为了降低地址文本中无用的干扰信息,通过四级提槽模型获取地址信息的结构化数据,四级提槽模型输入数据为修正地址文本,输出数据为分别对应于省字段、市字段、区字段、详细地址字段的具体信息。四级提槽模型通过行业地址库数据训练得到。
将地址信息的结构化数据输入第三方地图供应商的POI查询接口获取最终地址信息,包括以下步骤:
步骤1,对详细地址字段的具体信息进行拼音编码,并按照常见语音错误对其进行混淆处理,形成验证混淆集;
步骤2,结合省字段、市字段、区字段与详细地址字段,输入第三方地图供应商的POI查询接口,在该省市区范围内查找该详细地址,得到第三方地图供应商按照相关性返回的最相近地址;
步骤3,对第三方地图供应商返回的最相近地址进行拼音编码,并按照常见语音错误对其进行混淆处理,形成结果混淆集;
步骤4,对比结果混淆集和验证混淆集中的字符串,若仅存在常见语音错误,则判定该结果混淆集对应的地址可靠,返回该地址,否则丢弃该地址,返回空地址。
若第三方地图供应商(例如高德)仅有1个行政区槽位,则先结合区字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息;
若返回为空地址,则再结合市字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息;
若返回仍为空地址,则再结合省字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
Claims (5)
1.一种用于人机融合客服系统的自动地址纠偏方法,其特征在于,先通过ASR模型将地址语音转换为地址文本,再通过NLP模型处理地址文本形成修正地址文本,再获取地址信息的结构化数据,最后输入第三方地图供应商的POI查询接口获取最终地址信息;
对用于NLP模型训练的数据集中的每一个输入样本进行拼音编码,并按照常见语音错误对其进行混淆处理,形成该输入样本的混淆集,将输入样本连同其混淆集一起作为扩增输入样本,对NLP模型进行训练。
2.根据权利要求1所述的用于人机融合客服系统的自动地址纠偏方法,其特征在于,地址信息的结构化数据通过四级提槽模型获取,四级提槽模型输入数据为修正地址文本,输出数据为分别对应于省字段、市字段、区字段、详细地址字段的具体信息。
3.根据权利要求2所述的用于人机融合客服系统的自动地址纠偏方法,其特征在于,将地址信息的结构化数据输入第三方地图供应商的POI查询接口获取最终地址信息,包括以下步骤:
步骤1,对详细地址字段的具体信息进行拼音编码,并按照常见语音错误对其进行混淆处理,形成验证混淆集;
步骤2,结合省字段、市字段、区字段与详细地址字段,输入第三方地图供应商的POI查询接口,在该省市区范围内查找该详细地址,得到第三方地图供应商按照相关性返回的最相近地址;
步骤3,对第三方地图供应商返回的最相近地址进行拼音编码,并按照常见语音错误对其进行混淆处理,形成结果混淆集;
步骤4,对比结果混淆集和验证混淆集中的字符串,若仅存在常见语音错误,则判定该结果混淆集对应的地址可靠,返回该地址,否则丢弃该地址,返回空地址。
4.根据权利要求3所述的用于人机融合客服系统的自动地址纠偏方法,其特征在于,若第三方地图供应商仅有1个行政区槽位,则先结合区字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息;
若返回为空地址,则再结合市字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息;
若返回仍为空地址,则再结合省字段与详细地址字段,输入第三方地图供应商的POI查询接口获取地址信息。
5.根据权利要求1-4任意一项所述的用于人机融合客服系统的自动地址纠偏方法,其特征在于,常见语音错误包括但不限于前鼻音与后鼻音的混淆、平舌音与翘舌音的混淆。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011566029.8A CN112860724B (zh) | 2020-12-25 | 2020-12-25 | 一种用于人机融合客服系统的自动地址纠偏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011566029.8A CN112860724B (zh) | 2020-12-25 | 2020-12-25 | 一种用于人机融合客服系统的自动地址纠偏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112860724A true CN112860724A (zh) | 2021-05-28 |
CN112860724B CN112860724B (zh) | 2024-04-26 |
Family
ID=75997146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011566029.8A Active CN112860724B (zh) | 2020-12-25 | 2020-12-25 | 一种用于人机融合客服系统的自动地址纠偏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112860724B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330497A (zh) * | 2022-10-11 | 2022-11-11 | 中科云策(深圳)科技成果转化信息技术有限公司 | 数据处理方法、系统及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020022977A (ko) * | 2000-09-21 | 2002-03-28 | 한영석 | 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법 |
NL1021593A1 (nl) * | 2001-10-05 | 2003-04-08 | Comverse | Werkwijze voor het vaststellen van de mate van akoestische verwarring, en een systeem daarvoor. |
CN107066112A (zh) * | 2016-12-16 | 2017-08-18 | 中国科学院遥感与数字地球研究所 | 一种地址信息的拼音输入法及装置 |
CN110209771A (zh) * | 2019-06-14 | 2019-09-06 | 哈尔滨哈银消费金融有限责任公司 | 用户地理信息分析与文本挖掘方法和装置 |
CN110334162A (zh) * | 2019-05-09 | 2019-10-15 | 德邦物流股份有限公司 | 地址识别方法及装置 |
CN110968654A (zh) * | 2018-09-29 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 文本数据的地址类目确定方法、设备以及系统 |
CN111143525A (zh) * | 2019-12-17 | 2020-05-12 | 广东广信通信服务有限公司 | 车辆信息获取方法、装置和智能移车系统 |
CN111222345A (zh) * | 2020-01-15 | 2020-06-02 | 合肥慧图软件有限公司 | 基于语义分词技术的地名地址可视化分析方法 |
CN111382212A (zh) * | 2020-03-02 | 2020-07-07 | 拉扎斯网络科技(上海)有限公司 | 关联地址获取方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-25 CN CN202011566029.8A patent/CN112860724B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020022977A (ko) * | 2000-09-21 | 2002-03-28 | 한영석 | 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법 |
NL1021593A1 (nl) * | 2001-10-05 | 2003-04-08 | Comverse | Werkwijze voor het vaststellen van de mate van akoestische verwarring, en een systeem daarvoor. |
CN107066112A (zh) * | 2016-12-16 | 2017-08-18 | 中国科学院遥感与数字地球研究所 | 一种地址信息的拼音输入法及装置 |
CN110968654A (zh) * | 2018-09-29 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 文本数据的地址类目确定方法、设备以及系统 |
CN110334162A (zh) * | 2019-05-09 | 2019-10-15 | 德邦物流股份有限公司 | 地址识别方法及装置 |
CN110209771A (zh) * | 2019-06-14 | 2019-09-06 | 哈尔滨哈银消费金融有限责任公司 | 用户地理信息分析与文本挖掘方法和装置 |
CN111143525A (zh) * | 2019-12-17 | 2020-05-12 | 广东广信通信服务有限公司 | 车辆信息获取方法、装置和智能移车系统 |
CN111222345A (zh) * | 2020-01-15 | 2020-06-02 | 合肥慧图软件有限公司 | 基于语义分词技术的地名地址可视化分析方法 |
CN111382212A (zh) * | 2020-03-02 | 2020-07-07 | 拉扎斯网络科技(上海)有限公司 | 关联地址获取方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
宋子辉;: "自然语言理解的中文地址匹配算法", 遥感学报, no. 04, 25 July 2013 (2013-07-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330497A (zh) * | 2022-10-11 | 2022-11-11 | 中科云策(深圳)科技成果转化信息技术有限公司 | 数据处理方法、系统及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112860724B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10083691B2 (en) | Computer-implemented system and method for transcription error reduction | |
US7299181B2 (en) | Homonym processing in the context of voice-activated command systems | |
JP4724377B2 (ja) | 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル | |
CN109325091B (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
TWI698756B (zh) | 查詢服務之系統與方法 | |
US8209175B2 (en) | Uncertainty interval content sensing within communications | |
US8428241B2 (en) | Semi-supervised training of destination map for call handling applications | |
CN106205613B (zh) | 一种导航语音识别方法及系统 | |
US20060069563A1 (en) | Constrained mixed-initiative in a voice-activated command system | |
CN114550718A (zh) | 热词语音识别方法、装置、设备与计算机可读存储介质 | |
US7475017B2 (en) | Method and apparatus to improve name confirmation in voice-dialing systems | |
CN112860724A (zh) | 一种用于人机融合客服系统的自动地址纠偏方法 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN108831473B (zh) | 一种音频处理方法及装置 | |
KR102141150B1 (ko) | 화자종속 언어모델을 이용한 화자인식 장치 및 화자인식 방법 | |
KR100977000B1 (ko) | 업데이트된 주소의 음성 인식 그래마 자동 생성 방법 및시스템 | |
CN118013390B (zh) | 一种基于大数据分析的智慧工作台控制方法及系统 | |
CN114462364B (zh) | 录入信息的方法和装置 | |
JP7272463B2 (ja) | 応対業務補助プログラム、応対業務補助装置及び応対業務補助方法 | |
KR20050001684A (ko) | 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체 | |
CN117877531A (zh) | 基于用户语音信息的情绪分析方法 | |
KR100541759B1 (ko) | 비대상 어휘 관리를 통한 음성인식 서비스 방법 | |
CN113794809A (zh) | 业务处理方法、装置及电子设备 | |
KR100976999B1 (ko) | 그래마 모듈화를 이용한 주소인식 방법 및 그 장치 | |
TWM644870U (zh) | 對話式語音辨識系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |