CN111079386B - 地址识别方法、装置、设备及存储介质 - Google Patents

地址识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111079386B
CN111079386B CN201911096424.1A CN201911096424A CN111079386B CN 111079386 B CN111079386 B CN 111079386B CN 201911096424 A CN201911096424 A CN 201911096424A CN 111079386 B CN111079386 B CN 111079386B
Authority
CN
China
Prior art keywords
address
address field
pinyin
matching
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911096424.1A
Other languages
English (en)
Other versions
CN111079386A (zh
Inventor
陈勇达
王振众
陈曦
龚小龙
张伟
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Hangxiao Steel Structure Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Hangxiao Steel Structure Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd, Hangxiao Steel Structure Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN201911096424.1A priority Critical patent/CN111079386B/zh
Publication of CN111079386A publication Critical patent/CN111079386A/zh
Application granted granted Critical
Publication of CN111079386B publication Critical patent/CN111079386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种地址识别方法,包括:根据规则模板截取语音转译文本中的地址字段;从所述地址字段中截取目标地址字段,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,增加所截取的目标地址字段的长度,重复上述步骤,直到该次截取的目标地址字段对应的最大匹配得分不大于上一次截取的目标地址字段对应的最大匹配得分,则输出所述上一次截取的目标地址字段对应的最大匹配得分所对应的地址。通过上述方法,既能大大提升噪音文本的地址识别准确率又能节省大量人力和时间成本。本发明还公开了一种地址识别装置、设备及存储介质。

Description

地址识别方法、装置、设备及存储介质
技术领域
本发明涉及语音识别技术领域,特别涉及一种地址识别方法、装置、设备及存储介质。
背景技术
目前,客服机器人行业发展迅速,在一些应用场景中,客服机器人需要根据客户语音识别客户所描述的地址,目前地址识别方案主要分为两大类,第一类是基于模板匹配的规则式方法,先将用户语音转译成文本,通过正则表达式制定地址模板进行地址匹配,但是此类方法只能识别具有固定结构模式的地址,如市、区等行政区,而无法识别小区等无固定结构模式的地址,具有一定的局限性,而且总结地址模板需要耗费大量的时间和人力成本;第二类方法是对语音转译成的文本进行分词并提取地址词组,通过计算地址词组与地址库地址的最小编辑距离和余弦相似度进行地址匹配,但在实际应用场景中,由于地址无固定结构且客服话务场景下的语音转译文本噪声较大,难以对其正确分词提取地址字段用于匹配计算,故此类方法的地址识别准确率较低。
因此急需一种既能大大提升在客服话务场景下,针对用户发音不标准的语音转译文本的地址识别准确率,又能节省大量人力和时间成本的地址识别方法。
发明内容
本公开实施例提供了一种地址识别方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
在一些实施例中,一种地址识别方法包括:
根据规则模板截取语音转译文本中的地址字段;
从地址字段中截取目标地址字段,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,增加所截取的目标地址字段的长度,重复上述步骤,直到该次截取的目标地址字段对应的最大匹配得分不大于上一次截取的目标地址字段对应的最大匹配得分,则输出上一次截取的目标地址字段对应的最大匹配得分所对应的地址。
可选地,将该次截取的目标地址字段与地址库中的地址进行匹配计算包括:
采用汉字匹配计算、拼音匹配计算、拼音首字母匹配计算,分别得到汉字匹配得分、拼音匹配得分、拼音首字母匹配得分;
通过汉字匹配得分、拼音匹配得分、拼音首字母匹配得分中的最大值计算得到最大匹配得分。
可选地,汉字匹配计算、拼音匹配计算、拼音首字母匹配计算均包括:全匹配计算和局部匹配计算。
可选地,拼音匹配计算中,在全匹配计算之前,还包括:
对目标地址字段进行拼音转换,得到转换结果;
对转换结果进行模糊拼音转换,得到目标地址字段拼音;
目标地址字段拼音用于与地址库中的地址拼音进行全匹配计算。
可选地,根据规则模板截取语音转译文本中的地址字段,包括:
对语音转译文本进行去除尾缀、去除前缀、去除无意义字符、地址结束字段截取,得到地址字段。
可选地,根据规则模板截取语音转译文本中的地址字段之前,还包括:获取语音转译文本。
可选地,将该次截取的目标地址字段与地址库中的地址进行匹配计算之前,还包括:建立业务场景所需地区的地址库。
在一些实施例中,一种地址识别装置包括:
截取模块,用于根据规则模板截取语音转译文本中的地址字段;
匹配识别模块,用于从地址字段中截取目标地址字段,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,增加所截取的目标地址字段的长度,重复上述步骤,直到该次截取的目标地址字段对应的最大匹配得分不大于上一次截取的目标地址字段对应的最大匹配得分,则输出上一次截取的目标地址字段对应的最大匹配得分所对应的地址。
在一些实施例中,一种地址识别设备包括存储器及处理器;
存储器中存储有可执行程序代码;
处理器读取可执行程序代码,运行与可执行程序代码对应的程序,以实现上述实施例提供的地址识别方法。
在一些实施例中,一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述实施例提供的地址识别方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例通过对语音转译文本截取目标地址字段,将目标地址字段与地址库中的地址进行匹配计算,得到最大匹配得分对应的地址,该匹配计算方式融合了汉字匹配、拼音匹配、拼音首字母匹配三种匹配计算,提高了算法对转译文本的容错性,因此本发明能大大提升噪音文本的地址识别准确率,节省大量人力和时间成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种地址识别方法的流程示意图;
图2是根据一示例性实施例示出的一种地址识别方法的流程示意图;
图3是根据一示例性实施例示出的一种地址识别装置的示意图;
图4是根据一示例性实施例示出的一种地址识别装置的示意图;
图5是根据一示例性实施例示出的一种字数循环遍历截取的方法示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或一个以上实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
图1是根据一示例性实施例示出的一种地址识别方法的流程示意图;
在一些实施例中,一种地址识别方法包括:
步骤S101、根据规则模板截取语音转译文本中的地址字段。
具体地,在根据规则模板截取语音转译文本中的地址字段之前,首先获取客服对话场景中客户的语音,将客户输入的语音转译成语音文本。然后根据客服对话的业务场景制定规则模板,用于截取语音转译文本中的地址字段。具体包括对语音转译文本进行去除尾缀、去除前缀、地址结束字段截取、去除无意义字符的处理。
例如,在一些语音转译文本中,地址后常常出现“栋”、“幢”、“号楼”等字样,通过正则表达式制定相应的规则模板匹配分割,进行去除尾缀的处理,保留匹配位置之前的部分;在一些语音转译文本中,地址前常常出现“地址是”、“住在”等字样,通过正则表达式制定相应的规则模板匹配分割,进行去除前缀的处理,保留匹配位置之后的部分;在一些语音转译文本中,以小区地址为例,多数小区以“小区”、“苑”、“园”、“公寓”、“城”等字样结束,通过正则表达式制定相应的规则模板匹配分割,进行地址结束字段截取,删除匹配位置后的部分;还有一些语音转译文本中,会夹杂大量的“嗯”、“啊”、“这个”、“对”、“哦”等与地址无关的语气词,可进行去除无意义字符的处理,删除这部分语气词。
通过根据规则模板截取语音转译文本中的地址字段,去除无用文本,可以缩短后续匹配计算的时间,同时提升匹配的准确率。
步骤S102、从地址字段中截取目标地址字段,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,增加所截取的目标地址字段的长度,重复上述步骤,直到该次截取的目标地址字段对应的最大匹配得分不大于上一次截取的目标地址字段对应的最大匹配得分,则输出上一次截取的目标地址字段对应的最大匹配得分所对应的地址。
其中,从地址字段中截取目标地址字段,包括对截取的地址字段进行字数循环遍历截取,得到目标地址字段。可以通过滑动窗口进行字数循环遍历截取,滑动窗口的大小从字数2依次递增至地址字段总长度,在一些示例性场景中,得到的地址字段为“明天公寓”,对“明天公寓”进行字数循环遍历截取,如图5所示,首先得到“明天、天公、公寓”字符长度为2的目标地址字段,用于第一轮匹配计算,继续截取得到“明天公、天公寓”字符长度为3的目标地址字段,用于第二轮匹配计算,继续截取得到“明天公寓”字符长度为4的目标地址字段,用于第三轮匹配计算。
可选地,滑动窗口从地址字段中截取字符长度为2的目标地址字段,将字符长度为2的目标地址字段与地址库中的地址进行匹配计算,得到字符长度为2的目标地址字段对应的最大匹配得分,并将该最大匹配得分存入结果存储字典。
继续进行字数循环遍历截取,滑动窗口从地址字段中截取字符长度为3的目标地址字段,将字符长度为3的目标地址字段与地址库中的地址进行匹配计算,得到字符长度为3的目标地址字段对应的最大匹配得分,并将该最大匹配得分存入结果存储字典。
如果字符长度为3的目标地址字段对应的最大匹配得分大于字符长度为2的目标地址字段对应的最大匹配得分,则重复上述步骤,继续进行匹配计算,直到该次截取的目标地址字段对应的最大匹配得分不大于上一次截取的目标地址字段对应的最大匹配得分,则输出结果存储字典中上一次截取的目标地址字段对应的最大匹配得分所对应的地址。
通过比较每轮最大匹配得分实现计算终止,得到最大匹配得分对应的地址,提高了地址识别的准确率。
可选地,将该次截取的目标地址字段与地址库中的地址进行匹配计算包括:
采用汉字匹配计算、拼音匹配计算、拼音首字母匹配计算,分别得到汉字匹配得分、拼音匹配得分、拼音首字母匹配得分;
通过汉字匹配得分、拼音匹配得分、拼音首字母匹配得分中的最大值计算得到最大匹配得分。
具体地,将该次截取的目标地址字段与地址库中的地址进行汉字匹配计算包括,对当前截取的长度为K的目标地址字段分别与地址库中的每个地址di进行汉字匹配计算。汉字匹配计算包括全匹配计算和局部匹配计算,先将长度为K的目标地址字段与地址库中的地址di进行汉字全匹配计算,即判断长度为K的目标地址字段与地址库中的地址di是否相等,若相等,则返回汉字全匹配得分:Sh=α1;若不匹配,则对长度为K的目标地址字段与地址库中的地址di进行汉字局部匹配计算,即判断长度为K的目标地址字段是否为地址库中的地址di的子字符串,若局部匹配则返回汉字局部匹配得分:其中,K为截取的目标地址字段的字符长度,di为地址库中的地址,Sh为汉字全匹配得分,S′h为汉字局部匹配得分,α1为得分权重系数。
具体地,将该次截取的目标地址字段与地址库中的地址进行拼音匹配计算包括,对当前截取的长度为K的目标地址字段进行拼音转换,得到转换结果,对转换结果进行模糊拼音转换,得到长度为K的目标地址字段拼音,将得到的长度为K的目标地址字段拼音存入列表,将列表中的每个长度为K的目标地址字段拼音与地址库中的每个地址拼音d′i进行拼音匹配计算。拼音匹配计算分为全匹配计算和局部匹配计算,先将列表中的长度为K的目标地址字段拼音与地址库中的地址拼音d′i进行拼音全匹配计算,即判断列表中的长度为K的目标地址字段拼音与地址库中的地址拼音d′i是否相等。若匹配,则返回拼音全匹配得分:Sp=α2;若不匹配,对列表中的长度为K的目标地址字段拼音与地址库中的地址拼音d′i进行局部拼音匹配计算,即判断列表中的长度为K的目标地址字段拼音是否为地址库中的地址拼音d′i的子字符串,若局部匹配则返回拼音局部匹配得分:其中,K为截取的目标地址字段的字符长度,di为地址库中的地址,Sp为拼音全匹配得分,S′P为拼音局部匹配得分,α2为得分权重系数。
可选地,在进行拼音匹配计算之前,将地址库中的地址di进行拼音转换,得到地址库中的地址拼音d′i
具体地,将该次截取的目标地址字段与地址库中的地址进行拼音首字母d″i匹配计算包括,对当前截取的长度为K的目标地址字段进行拼音转换,得到转换结果,并对转换结果提取拼音首字母,得到目标地址字段的拼音首字母,将目标地址字段的拼音首字母与地址库中的地址拼音首字母d″i进行拼音首字母匹配计算,拼音首字母匹配计算包括全匹配计算和局部匹配计算,先将目标地址字段拼音首字母与地址库中的地址拼音首字母d″i进行全匹配计算,即判断目标地址字段拼音首字母与地址库中的地址拼音首字母d″i是否相等,若匹配,则返回拼音首字母全匹配得分:Ss=α3;若不匹配,则对目标地址字段拼音首字母与地址库中的地址拼音首字母d″i进行局部匹配计算,及判断目标地址字段拼音首字母是否为地址库中的地址拼音首字母d″i的子字符串,若局部匹配则返回拼音首字母局部匹配得分:其中,K为截取的目标地址字段的字符长度,di为地址库中的地址,SS为拼音首字母全匹配得分,S′s为拼音首字母局部匹配得分,α3为得分权重系数。
可选地,在进行拼音首字母匹配计算之前,还包括,将地址库中的地址转换为地址拼音,并提取地址拼音中的首字母,得到地址库中的地址拼音首字母d″i
可选地,α1、α2、α3为三种匹配计算方式的得分权重系数,具体地,α1等于1,α2,α3∈[0.1,0.2,0.3,......1.0],遍历所有α1、α2、α3的参数组合,对历史存量地址样本进行匹配计算,选取最优的参数组合。
通过上述步骤,可以得到长度为K的目标地址字段与地址库中的地址的汉字全匹配得分、汉字局部匹配得分、拼音全匹配得分、拼音局部匹配得分、拼音首字母全匹配得分、拼音首字母局部匹配得分,通过汉字全匹配得分、汉字局部匹配得分、拼音全匹配得分、拼音局部匹配得分、拼音首字母全匹配得分、拼音首字母局部匹配得分中的最大值计算最大匹配得分。
首先,选取Sh、S′h、Sp、S′P、SS、S′s中的最大值Smax作为该地址的匹配得分,并存入局部结果存储字典。
对于本轮匹配计算时局部结果存储字典中的每一个地址,若该地址在最终结果存储字典中,最终结果存储字典中该地址的得分为Sdi=Smax+Smax 2,若该地址不在最终结果存储字典中,更新最终结果存储字典,最终结果存储字典中该地址的得分为Sdi=Smax 2,计算本轮最终结果存储字典中的地址的得分Sdi,选取最大的地址得分Sdi作为本轮的最大匹配得分。
通过在匹配计算方式中引入汉字匹配计算、拼音匹配计算、拼音首字母匹配计算,提高了算法对转译文本的容错性,提高了对噪音文本的地址识别准确率。
可选地,汉字匹配计算、拼音匹配计算、拼音首字母匹配计算均包括:全匹配计算和局部匹配计算。
具体地,将该次截取的目标地址字段与地址库中的地址进行汉字匹配计算时,先将长度为K的目标地址字段与地址库中的地址di进行汉字全匹配计算,即判断长度为K的目标地址字段与地址库中的地址di是否相等,若相等,则返回汉字全匹配得分:Sh=α1;若不匹配,则对长度为K的目标地址字段与地址库中的地址di进行汉字局部匹配计算,即判断长度为K的目标地址字段是否为地址库中的地址di的子字符串,若局部匹配则返回汉字局部匹配得分:其中,K为截取的目标地址字段的字符长度,di为地址库中的地址,Sh为汉字全匹配得分,S′h为汉字局部匹配得分,α1为得分权重系数。
将列表中的长度为K的目标地址字段拼音与地址库中的地址拼音d″i进行拼音全匹配计算,即判断列表中的长度为K的目标地址字段拼音与地址库中的地址拼音d″i是否相等。若匹配,则返回拼音全匹配得分:Sp=α2;若不匹配,对列表中的长度为K的目标地址字段拼音与地址库中的地址拼音d′i进行局部拼音匹配计算,即判断列表中的长度为K的目标地址字段拼音是否为地址库中的地址拼音d′i的子字符串,若局部匹配则返回拼音局部匹配得分:其中,K为截取的目标地址字段的字符长度,di为地址库中的地址,Sp为拼音全匹配得分,S′P为拼音局部匹配得分,α2为得分权重系数。
将目标地址字段拼音首字母与地址库中的地址拼音首字母d″i进行全匹配计算,即判断目标地址字段拼音首字母与地址库中的地址拼音首字母d″i是否相等,若匹配,则返回拼音首字母全匹配得分:SS=α3;若不匹配,则对目标地址字段拼音首字母与地址库中的地址拼音首字母d″i进行局部匹配计算,及判断目标地址字段拼音首字母是否为地址库中的地址拼音首字母d″i的子字符串,若局部匹配则返回拼音首字母局部匹配得分:其中,K为截取的目标地址字段的字符长度,di为地址库中的地址,SS为拼音首字母全匹配得分,S′s为拼音首字母局部匹配得分,α3为得分权重系数。
通过在每种匹配计算方式中引入局部匹配计算,可以在很大程度上解决因语音转译错误造成的地址难以识别的问题。
可选地,拼音匹配计算中,在全匹配计算之前,还包括:
对目标地址字段进行拼音转换,得到转换结果;
对转换结果进行模糊拼音转换,得到目标地址字段拼音;
目标地址字段拼音用于与地址库中的地址拼音进行全匹配计算。
对当前截取的长度为K的目标地址字段进行拼音转换,得到转换结果;对转换结果进行模糊拼音转换,包括平翘舌音转换,例如Z和Zh的转换,包括前后鼻音转换,例如en和eng的转换,得到长度为K的目标地址字段拼音,将得到的长度为K的目标地址字段拼音存入列表,将列表中的每个长度为K的目标地址字段拼音与地址库中的每个地址拼音d′i进行拼音匹配计算。
通过在拼音匹配计算中引入模糊拼音转换,可以解决用户发音不标准造成的地址难以识别的问题,提高了对噪音文本的地址识别准确率。
可选地,根据规则模板截取语音转译文本中的地址字段包括:
对语音转译文本进行去除尾缀、去除前缀、去除无意义字符、地址结束字段截取,得到地址字段。
具体地,在一些语音转译文本中,地址后常常出现“栋”、“幢”、“号楼”等字样,通过正则表达式制定相应的规则模板匹配分割,进行去除尾缀的处理,保留匹配位置之前的部分,例如,得到的语音转译文本是“我要去清华园6号楼,去看我的朋友。”通过规则模板进行去除尾缀的处理,得到“我要去清华园6号楼”的地址字段;在一些语音转译文本中,地址前常常出现“地址是”、“住在”等字样,通过正则表达式制定相应的规则模板匹配分割,进行去除前缀的处理,保留匹配位置之后的部分,例如,得到的语音转译文本是“我们家住在清华园”,通过规则模板进行去除前缀的处理,得到“清华园”的地址字段;在一些语音转译文本中,以小区地址为例,多数小区以“小区”、“苑”、“园”、“公寓”、“城”等字样结束,通过正则表达式制定相应的规则模板匹配分割,进行地址结束字段截取,删除匹配位置后的部分,例如,得到的语音转译文本是“明天公寓的环境很好,非常适宜人居住”,通过规则模板进行地址结束字段截取,得到“明天公寓”的地址字段;还有一些语音转译文本中,会夹杂大量的“嗯”、“啊”、“这个”、“对”、“哦”等与地址无关的语气词,可进行去除无意义字符的处理,删除这部分语气词。
通过根据规则模板截取语音转译文本中的地址字段,去除无用文本,可以缩短后续匹配计算的时间,同时提升匹配的准确率。
可选地,对截取的地址字段进行字数循环遍历截取,得到目标地址字段包括:可以通过滑动窗口进行字数循环遍历截取,滑动窗口的大小从字数2依次递增至地址字段总长度。在一些示例性场景中,得到的地址字段为“明天公寓”,对“明天公寓”进行字数循环遍历截取,首先得到“明天、天公、公寓”字符长度为2的目标地址字段,用于第一轮匹配计算,继续截取得到“明天公、天公寓”字符长度为3的目标地址字段,用于第二轮匹配计算,继续截取得到“明天公寓”字符长度为4的目标地址字段,用于第三轮匹配计算。
通过上述方法,得到不同长度的目标地址字段,可提高地址识别的准确率。
可选地,根据规则模板截取语音转译文本中的地址字段之前,还包括:获取语音转译文本。
具体地,首先获取客服对话场景中客户的语音,利用语音识别装置将客户输入的语音转译成语音文本。然后根据规则模板截取语音转译文本中的地址字段。
可选地,将该次截取的目标地址字段与地址库中的地址进行匹配计算之前,还包括:建立业务场景所需地区的地址库。
在一些示例性场景中,该公司的业务主要在北京市进行,在终端创建地址库,将北京市的所有地址上传到地址库,与截取的目标地址字段进行匹配。在业务地区发生变化时,只需更新地址库即可。大大节省时间和人力成本。
图2是根据一示例性实施例示出的一种地址识别方法的流程示意图。
在一些实施例中,一种地址识别方法包括:
步骤S201,获取语音转译文本,将用户输入的语音转译成语音文本。
步骤S202,截取语音转译文本中的地址字段,根据客服对话的业务场景制定相应的规则模板,用于截取语音转译文本中的地址字段,主要包括对语音转译文本进行去除尾缀、去除前缀、地址结束字段截取以及去除无用字符的处理,通过去除无用文本,可以提高后续匹配计算的效率。
步骤S203,字数循环遍历截取,对截取的地址字段进行字数循环遍历截取,得到目标地址字段,可以通过滑动窗口进行字数循环遍历截取,滑动窗口的大小从字数2依次递增至地址字段总长度。例如,得到的地址字段为“明天公寓”,对“明天公寓”进行字数循环遍历截取,首先得到“明天、天公、公寓”字符长度为2的目标地址字段,用于第一轮匹配计算,继续截取得到“明天公、天公寓”字符长度为3的目标地址字段,用于第二轮匹配计算,继续截取得到“明天公寓”字符长度为4的目标地址字段,用于第三轮匹配计算。
步骤S204,将截取的目标地址字段与地址库中的地址进行匹配计算,匹配计算包括汉字匹配计算、拼音匹配计算以及拼音首字母匹配计算。通过上述方式,可以提高地址识别的准确率。
步骤S205,计算匹配得分,将上述汉字匹配得分、拼音匹配得分、拼音首字母匹配得分中的最大值Smax作为该地址的匹配得分。
步骤S206,计算本轮最大匹配得分,对于本轮匹配计算时局部结果存储字典中的每一个地址,若该地址在最终结果存储字典中,最终结果存储字典中该地址的得分为Sdi=Smax+Smax 2,若该地址不在最终结果存储字典中,更新最终结果存储字典,最终结果存储字典中该地址的得分为Sdi=Smax 2,计算本轮最终结果存储字典中的地址的得分Sdi,选取最大的地址得分Sdi作为本轮的最大匹配得分。
步骤S207,判断本轮最大匹配得分是否大于上一轮最大匹配得分,如果本轮最大匹配得分大于上一轮最大匹配得分,则返回步骤S203,继续执行字数循环遍历截取,如果本轮最大匹配得分小于等于上一轮最大匹配得分,则执行步骤S208。
步骤S208,输出上一轮最大匹配得分对应的地址。
图3是根据一示例性实施例示出的一种地址识别装置的示意图。
在一些实施例中,一种地址识别装置包括:
S301、截取模块,用于根据规则模板截取语音转译文本中的地址字段;
S302、匹配识别模块,用于从地址字段中截取目标地址字段,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,增加所截取的目标地址字段的长度,重复上述步骤,直到该次截取的目标地址字段对应的最大匹配得分不大于上一次截取的目标地址字段对应的最大匹配得分,则输出上一次截取的目标地址字段对应的最大匹配得分所对应的地址。
图4是根据一示例性实施例示出的一种地址识别装置的示意图
在一些实施例中,一种地址识别装置,包括处理器41和存储有程序指令的存储器42,还可以包括通信接口43和总线44。其中,处理器41、通信接口43、存储器42可以通过总线44完成相互间的通信。通信接口43可以用于信息传输。处理器41可以调用存储器42中的逻辑指令,以执行上述实施例提供的地址识别的方法。
此外,上述的存储器42中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器42可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器。
本公开实施例提供了一种地址识别设备,包括存储器42及处理器41;
存储器42中存储有可执行程序代码;
处理器41读取可执行程序代码,运行与可执行程序代码对应的程序,以实现上述实施例提供的地址识别方法。
本公开实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述实施例提供的地址识别方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或一个以上用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种地址识别方法,其特征在于,包括:
根据规则模板截取语音转译文本中的地址字段;
从所述地址字段中截取目标地址字段,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,增加所截取的目标地址字段的长度,重复上述步骤,直到该次截取的目标地址字段对应的最大匹配得分不大于上一次截取的目标地址字段对应的最大匹配得分,则输出所述上一次截取的目标地址字段对应的最大匹配得分所对应的地址;
其中,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,包括:采用汉字匹配计算、拼音匹配计算、拼音首字母匹配计算,分别得到汉字匹配得分、拼音匹配得分、拼音首字母匹配得分;通过所述汉字匹配得分、所述拼音匹配得分、所述拼音首字母匹配得分中的最大值计算得到所述最大匹配得分;
所述汉字匹配计算、拼音匹配计算、拼音首字母匹配计算均包括:全匹配计算和局部匹配计算。
2.根据权利要求1所述的方法,其特征在于,所述拼音匹配计算中,在所述全匹配计算之前,还包括:
对所述目标地址字段进行拼音转换,得到转换结果;
对所述转换结果进行模糊拼音转换,得到目标地址字段拼音;
所述目标地址字段拼音用于与地址库中的地址拼音进行所述全匹配计算。
3.根据权利要求1所述的方法,其特征在于,所述根据规则模板截取语音转译文本中的地址字段,包括:
对所述语音转译文本进行去除尾缀、去除前缀、去除无意义字符、地址结束字段截取,得到所述地址字段。
4.根据权利要求1所述的方法,其特征在于,所述根据规则模板截取语音转译文本中的地址字段之前,还包括:
获取所述语音转译文本。
5.根据权利要求1所述的方法,其特征在于,所述将该次截取的目标地址字段与地址库中的地址进行匹配计算之前,还包括:
建立业务场景所需地区的地址库。
6.一种地址识别装置,其特征在于,包括:
截取模块,用于根据规则模板截取语音转译文本中的地址字段;
匹配识别模块,用于从所述地址字段中截取目标地址字段,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,增加所截取的目标地址字段的长度,重复上述步骤,直到该次截取的目标地址字段对应的最大匹配得分不大于上一次截取的目标地址字段对应的最大匹配得分,则输出所述上一次截取的目标地址字段对应的最大匹配得分所对应的地址;
其中,将该次截取的目标地址字段与地址库中的地址进行匹配计算,得到该次截取的目标地址字段对应的最大匹配得分,包括:采用汉字匹配计算、拼音匹配计算、拼音首字母匹配计算,分别得到汉字匹配得分、拼音匹配得分、拼音首字母匹配得分;通过所述汉字匹配得分、所述拼音匹配得分、所述拼音首字母匹配得分中的最大值计算得到所述最大匹配得分;
所述汉字匹配计算、拼音匹配计算、拼音首字母匹配计算均包括:全匹配计算和局部匹配计算。
7.一种地址识别设备,其特征在于,包括存储器及处理器;
所述存储器中存储有可执行程序代码;
所述处理器读取所述可执行程序代码,运行与所述可执行程序代码对应的程序,以实现权利要求1至5任一项所述的地址识别方法。
8.一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至5任一项所述的地址识别方法。
CN201911096424.1A 2019-11-11 2019-11-11 地址识别方法、装置、设备及存储介质 Active CN111079386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911096424.1A CN111079386B (zh) 2019-11-11 2019-11-11 地址识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911096424.1A CN111079386B (zh) 2019-11-11 2019-11-11 地址识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111079386A CN111079386A (zh) 2020-04-28
CN111079386B true CN111079386B (zh) 2023-08-25

Family

ID=70310849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911096424.1A Active CN111079386B (zh) 2019-11-11 2019-11-11 地址识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111079386B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554297B (zh) * 2020-05-15 2023-08-22 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备及可读存储介质
CN112711950A (zh) * 2020-12-23 2021-04-27 深圳壹账通智能科技有限公司 地址信息抽取方法、装置、设备及存储介质
CN112818685B (zh) * 2021-01-29 2024-07-26 上海寻梦信息技术有限公司 地址匹配方法、装置、电子设备及存储介质
CN113593569A (zh) * 2021-07-27 2021-11-02 德邦物流股份有限公司 一种电子面单生成方法、装置、电子设备及存储介质
CN114444502A (zh) * 2022-01-28 2022-05-06 广州华多网络科技有限公司 中文地址检测方法及其装置、设备、介质、产品
CN114528364A (zh) * 2022-02-18 2022-05-24 广州华多网络科技有限公司 地址信息检测方法及其装置、设备、介质、产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678708A (zh) * 2013-12-30 2014-03-26 小米科技有限责任公司 一种识别预设地址的方法及装置
CN104866546A (zh) * 2015-05-08 2015-08-26 裴克铭管理咨询(上海)有限公司 地址匹配模糊索引以及相应的匹配方法和链式补充机制
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN105630765A (zh) * 2015-12-21 2016-06-01 浙江万里学院 地名地址识别方法
CN108804425A (zh) * 2018-06-13 2018-11-13 北京玄科技有限公司 智能机器人会话文本的地址信息提取方法及装置
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法
CN110070872A (zh) * 2019-04-22 2019-07-30 南京邮电大学 一种基于智能语音识别的物流填单方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040019488A1 (en) * 2002-07-23 2004-01-29 Netbytel, Inc. Email address recognition using personal information
US8144709B2 (en) * 2007-04-06 2012-03-27 International Business Machines Corporation Method, system and computer processing an IP packet, routing a structured data carrier, preventing broadcast storms, load-balancing and converting a full broadcast IP packet

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678708A (zh) * 2013-12-30 2014-03-26 小米科技有限责任公司 一种识别预设地址的方法及装置
CN104866546A (zh) * 2015-05-08 2015-08-26 裴克铭管理咨询(上海)有限公司 地址匹配模糊索引以及相应的匹配方法和链式补充机制
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN105630765A (zh) * 2015-12-21 2016-06-01 浙江万里学院 地名地址识别方法
CN108804425A (zh) * 2018-06-13 2018-11-13 北京玄科技有限公司 智能机器人会话文本的地址信息提取方法及装置
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法
CN110070872A (zh) * 2019-04-22 2019-07-30 南京邮电大学 一种基于智能语音识别的物流填单方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
应申 ; 李威阳 ; 贺彪 ; 王维 ; 赵朝彬 ; .基于城市地址树的地址文本匹配方法.地理信息世界.2017,(06),第89-94页. *

Also Published As

Publication number Publication date
CN111079386A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111079386B (zh) 地址识别方法、装置、设备及存储介质
US20200349175A1 (en) Address Search Method and Device
KR101768509B1 (ko) 온라인 음성 번역 방법 및 장치
US8332205B2 (en) Mining transliterations for out-of-vocabulary query terms
WO2018205389A1 (zh) 语音识别方法、系统、电子装置及介质
EP3584786A1 (en) Voice recognition method, electronic device, and computer storage medium
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN103971684B (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN100504851C (zh) 一种中文分词方法及系统
CN110930980B (zh) 一种中英文混合语音的声学识别方法及系统
US20200301919A1 (en) Method and system of mining information, electronic device and readable storable medium
CN104142915A (zh) 一种添加标点的方法和系统
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN111160003B (zh) 一种断句方法及装置
CN112633003A (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN110210041B (zh) 互译句对齐方法、装置及设备
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN112328735A (zh) 热点话题确定方法、装置及终端设备
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113553847A (zh) 用于对地址文本进行解析的方法、装置、系统和存储介质
CN112287657B (zh) 基于文本相似度的信息匹配系统
CN114492426A (zh) 子词切分方法、模型训练方法、装置和电子设备
CN112597748A (zh) 语料生成方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 101, building 1, block C, Qianjiang Century Park, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Weiming Information Technology Co.,Ltd.

Applicant after: Institute of Information Technology, Zhejiang Peking University

Address before: Room 288-1, 857 Xinbei Road, Ningwei Town, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant before: Institute of Information Technology, Zhejiang Peking University

Applicant before: Hangzhou Weiming Information Technology Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20230727

Address after: Room 101, building 1, block C, Qianjiang Century Park, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Weiming Information Technology Co.,Ltd.

Applicant after: Institute of Information Technology, Zhejiang Peking University

Applicant after: HANGXIAO STEEL STRUCTURE Co.,Ltd.

Address before: Room 101, building 1, block C, Qianjiang Century Park, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Weiming Information Technology Co.,Ltd.

Applicant before: Institute of Information Technology, Zhejiang Peking University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant