CN112133283A - 一种多语言环境下语音应答系统设计 - Google Patents

一种多语言环境下语音应答系统设计 Download PDF

Info

Publication number
CN112133283A
CN112133283A CN201910551557.7A CN201910551557A CN112133283A CN 112133283 A CN112133283 A CN 112133283A CN 201910551557 A CN201910551557 A CN 201910551557A CN 112133283 A CN112133283 A CN 112133283A
Authority
CN
China
Prior art keywords
language
voice
user
recognition
application service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910551557.7A
Other languages
English (en)
Inventor
戴翰波
李辉
李哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Huiren Information Technology Co ltd
Original Assignee
Wuhan Huiren Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Huiren Information Technology Co ltd filed Critical Wuhan Huiren Information Technology Co ltd
Priority to CN201910551557.7A priority Critical patent/CN112133283A/zh
Publication of CN112133283A publication Critical patent/CN112133283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多语言环境下语音应答系统设计,主要实现了在多语言环境下无需用户手动设置语言类型便对用户语音输入进行准确识别并帮助应用服务作出正确应答反馈。本发明包括语言识别服务集,预设信息存储区以及识别结果比对模块。首先针对应用到本发明的应用服务,准备不同语言版本的该应用所要用到的文本信息内容存储到预设信息存储区中。然后将该用户语言输入经过一个集成了多个设置为不同语言的语音识别服务集,由此得到了多个不同语言的语音识别结果。然后将这些语音识别的结果与其相应的语言的预设文本信息作比对,查找出相符或最为相近的结果,从而知道用户的语音指令,询问或回答的内容,将其传递给应用服务,从而使应用服务得知自己要进行的操作。

Description

一种多语言环境下语音应答系统设计
技术领域
本发明属于计算机技术领域,更进一步,属于使用计算机技术设计一种针对多语言环境的语音应答系统。本发明可以广泛应用于多语言共存场景下需要使用语音应答的应用,如智能客服,车载GPS,外语教学中的问答交互等服务。
背景技术
随着语音技术的发展,现在越来越多的应用服务为了能够解放用户双手或提供更加简便的操作,选择在服务中应用一个语音应答系统去获取用户的指令或者问询,然后获取到的内容结合应用服务对用户进行反馈。通常,由于文本信息比语音信息更容易进行处理和下一步操作,所以语音应答系统获取到用户的指令或者问询后,会使用语音识别服务将用户语音形式的指令或者问询转换为文字的形式,然后依据文本信息内容进行决策。同时,在语言类在线授课中,也会因为自动交互问答等内容使用到具有语音识别服务的语音应答系统,需要根据语音识别产生的文本结果与预设答案进行比对以此判断学生回答的正误。
现有语音识别技术存在一大问题就是对于不同语言来说要使用不同的模型甚至算法去进行语音识别。所以大多数涉及使用语音识别的应用往往会在用户使用前让用户设定语言。但是这样有一些不足之处,比如某一应用其有多个使用者共同使用,而在多个使用者使用不同的几种语言,这种情况下当使用者更改时都要在应用中去设置切换语言,这无疑会给用户的使用带来麻烦。又比如对于一个语言课教学软件,授课时会出现向学生提问后需要学生使用不同的语言去回答的情况,若要学生手动切换设置语言,会出现因忘记切换或切换错误带来的不便。
发明内容
本发明目的在于利用现有技术设计一种多语言环境下的语音应答系统,使得用户在使用支持语音输入的应用时不用去切换选择自己要使用的语言,并且通过对用户语音输入的识别及比对得到应用服务需要的信息。
实现本发明的技术思路是:首先针对该语音应答系统所要应用的服务场景,预先准备不同语言版本的该服务场景所要用到的文本信息内容。当用户进行语音输入后,因为不知道用户所用语言类型,所有将该语音信息经过一个集成了多个设置为不同语言的语音识别服务集,由此得到了多个不同语言的语音识别结果。然后将这些语音识别的结果与其相应的语言的预设文本信息作比对,查找出相符或最为相近的结果,从而知道用户的语音指令,询问或回答的内容,从而使应用服务得知自己要进行的操作。
该系统由如下部分构成。
预设信息存储区,该区域用来存储本发明被应用于的具体服务所需求的文本信息内容(比如操作指令,可能的问询或在语言教学时向用户的提问所对应的答案等),每个文本信息内容均有多个不同语言的版本。
语音识别服务集,该集集成了多个设置为不同语言的语音识别服务,负责将用户的语音输入转换为不同语言的识别结果。
识别结果比对模块,将不同语言的识别结果与相应语言的预设文本作比对,从而得知用户要进行的操作,问询的内容或者回答的答案。然后将结果传递给应用服务使得应用服务作出正确的反馈。
本发明与现有的技术相比具有以下优点
本发明可以使用户在多语言环境下使用涉及语音识别服务的语音应答系统的应用时不用考虑使用语言的设置与切换,从而使用户的使用更加便利,并且避免了因用户未设置或切换使用语言造成应用服务无法正确使用的现象。
附图说明
图1为该系统架构。
图2为语音识别服务集的内部结构。
图3为识别结果比对模块内部结构和工作流程。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
参照图1,该系统工作流程为。
(1)首先,根据本系统所应用具体服务的,在预设信息存储区存储不同语言版本的文本信息,例如,若本系统应用于一个声控设备,则存储的文本信息则为控制该设备功能的各种指令;若本系统应用于一个问询系统,则存储的文本信息为应用服务能够解答的问题库或本系统用于外语教学中的自动问答交互,则存储的文本信息则为向学生提问的问题答案,预设信息存储完毕后可以开始启动应用。
(2)应用开启后,本发明等待用户的语音输入。
(3)收到用户语音输入后,将用户语音输入传递给语音识别服务集中,服务集内部结构如图2所示,为多个设置了不同语种的语音识别服务,当语音输入传入后,所有语音识别服务启动对传入语音并行进行语音识别,得到多个文本信息类型不同语种的语音识别结果。
(4)将得到的不同语种的语音识别结果传递给识别结果比对模块,该模块工作流程如图3所示,每一个语种有一个自己的工作区,将得到的相应语种的语音识别结果与从预设信息存储区得到的相应语种的预设信息进行比对查找工作,根据应用本发明的服务的不同,比对查找有不同的目标,例如查找声控设备中用户的语音输入内容是否存在相应的操作指令,问询系统中是否存在相应的问题以及问答系统中用户回答的正确性,比对查找使用正则匹配与语义匹配相结合的方法,应用服务根据需求可以选择只使用正则匹配或同时将两者结合使用,结合使用的方法为首先使用正则匹配进行比对查找,未查找到相匹配的信息,则使用语义匹配再进行一次匹配查找,以此保证用户的语音输入内容在与预设内容不完全相同却具有相近的意思时,仍能得到正确结果。
若某语种工作区通过比对查找,语音识别结果有与预设信息相符的内容,则该工作区识别结果为该内容+该工作区所设的语种,若无相符内容,则该工作区识别结果为NULL;然后,将各工作区的识别结果进行汇总,若全部工作区识别结果均为NULL,则最终结果为NULL,意为用户语音输入的指令不存在或问询的问题不存在或回答不正确,将之传递给应用服务程序,否则,最终结果就是识别结果非NULL的那个工作区的内容,将该内容传递给应用服务程序,应用服务程序据此进行下一步给用户的反馈等其他操作。
此外,该系统可以因应用服务的需要作如下设置,即,当应用服务开启后,第一次有正确结果的语音应答完成,识别结果比对模块会将产生正确结果的工作区的所设语种告知语音识别集成模块,这样在下次语音输入时,语音识别服务集会先只运行该语种的语音识别服务,识别结果比对模块也会先只对该语种进行比对,当该语种比对结果为NULL时,再启动其他语种的语音识别服务和进行比对,如此语种设定在应用服务重启,设置时间戳到期或产生其他语种的正确结果时作废或更改,同时,关于用户所用语种的信息也可反馈给应用服务,使其可以将自己的用户交互界面的语言变更为用户所用的语种。

Claims (3)

1.一种多语言环境下语音应答系统设计,其特征在于:包括由语音识别服务集,预设信息存储区以及识别结果比对模块;
预设信息存储区,该区域用来存储本发明被应用于的具体服务所需求的文本信息内容(比如操作指令,可能的问询或在语言教学时向用户的提问所对应的答案等),每个文本信息内容均有多个不同语言的版本;
语音识别服务集,负责将用户的语音输入转换为不同语言的识别结果;
识别结果比对模块,将不同语言的识别结果与相应语言的预设文本作比对,从而得知用户要进行的操作,问询的内容或者回答的答案,然后将结果传递给应用服务使得应用服务做出正确的反馈。
2.根据权利要求1所述一种多语言环境下语音应答系统设计,其特征在于:语音识别服务集,该集由多个设置为不同语言的语音识别服务所构成,当用户进行语音输入后,将语音输入传入该服务集中,所有语音识别服务对语音输入并行进行语音识别,得到多个文本信息类型不同语种的语音识别结果,由此便不需用户设置所用语言便可进行准确的语音识别服务。
3.根据权利要求1所述一种多语言环境下语音应答系统设计,其特征在于:识别结果比对模块使用如下方法进行比对及判断结果:
每一个语种有一个自己的工作区,将得到的相应语种的语音识别结果与从预设信息存储区得到的相应语种的预设信息进行比对查找工作,根据应用本发明的服务的不同,比对查找有不同的目标,例如查找声控设备中用户的语音输入内容是否存在相应的操作指令;问询系统中是否存在相应的问题以及问答系统中用户回答的正确性,比对查找使用正则匹配与语义匹配相结合的方法,应用服务根据需求可以选择只使用正则匹配或同时将两者结合使用,若某语种工作区通过比对查找,语音识别结果有与预设信息相符的内容,则该工作区识别结果为该内容+该工作区所设的语种,若无相符内容,则该工作区识别结果为NULL;
然后,将各工作区的识别结果进行汇总,若全部工作区识别结果均为NULL,则最终结果为NULL,意为用户语音输入的指令不存在或问询的问题不存在或回答不正确,将之传递给应用服务程序,否则,最终结果就是识别结果非NULL的那个工作区的内容,将该内容传递给应用服务程序,应用服务程序据此进行下一步给用户的反馈等其他操作。
CN201910551557.7A 2019-06-24 2019-06-24 一种多语言环境下语音应答系统设计 Pending CN112133283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910551557.7A CN112133283A (zh) 2019-06-24 2019-06-24 一种多语言环境下语音应答系统设计

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910551557.7A CN112133283A (zh) 2019-06-24 2019-06-24 一种多语言环境下语音应答系统设计

Publications (1)

Publication Number Publication Date
CN112133283A true CN112133283A (zh) 2020-12-25

Family

ID=73849887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910551557.7A Pending CN112133283A (zh) 2019-06-24 2019-06-24 一种多语言环境下语音应答系统设计

Country Status (1)

Country Link
CN (1) CN112133283A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853703A (zh) * 2014-02-19 2014-06-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN104505091A (zh) * 2014-12-26 2015-04-08 湖南华凯文化创意股份有限公司 人机语音交互方法及系统
CN105096953A (zh) * 2015-08-11 2015-11-25 东莞市凡豆信息科技有限公司 实现多语种混合使用的语音识别方法
CN106409285A (zh) * 2016-11-16 2017-02-15 杭州联络互动信息科技股份有限公司 智能终端设备根据语音数据识别语言种类的方法及装置
CN107526826A (zh) * 2017-08-31 2017-12-29 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853703A (zh) * 2014-02-19 2014-06-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN104505091A (zh) * 2014-12-26 2015-04-08 湖南华凯文化创意股份有限公司 人机语音交互方法及系统
CN105096953A (zh) * 2015-08-11 2015-11-25 东莞市凡豆信息科技有限公司 实现多语种混合使用的语音识别方法
CN106409285A (zh) * 2016-11-16 2017-02-15 杭州联络互动信息科技股份有限公司 智能终端设备根据语音数据识别语言种类的方法及装置
CN107526826A (zh) * 2017-08-31 2017-12-29 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器

Similar Documents

Publication Publication Date Title
CN110008322B (zh) 多轮对话场景下的话术推荐方法和装置
US11043206B2 (en) Systems and methods for crowdsourced actions and commands
US10579730B1 (en) Allowing spelling of arbitrary words
CN106101789B (zh) 终端的语音交互方法及装置
US7103553B2 (en) Assistive call center interface
US9582757B1 (en) Scalable curation system
US7584099B2 (en) Method and system for interpreting verbal inputs in multimodal dialog system
CN104199810A (zh) 一种基于自然语言交互的智能服务方法及系统
CN107430616A (zh) 语音查询的交互式再形成
CA2823835C (en) Voice search and response based on relevancy
US10162337B2 (en) Natural language user interface for computer-aided design systems
CN111522909A (zh) 一种语音交互方法及服务器
CN111722825A (zh) 交互方法、信息处理方法、车辆和服务器
CN117573834B (zh) 一种用于面向软件即服务平台的多机器人对话方法及系统
JP2004212895A (ja) 教育支援システム及び方法並びに教育支援用プログラム
CN110413645A (zh) 数据搜索方法、装置、终端及计算机可读存储介质
CN111651554A (zh) 基于自然语言理解及处理的保险问答回答的方法和装置
CN112214589A (zh) 一种基于冷启动的多轮会话框架的方法
CN115509485A (zh) 一种业务表单的填写方法、装置、电子设备和存储介质
CN108182284B (zh) 一种基于互联网的教育信息处理方法及装置
CN117828057A (zh) 知识问答方法、装置、设备和存储介质
EP3861462B1 (en) Facilitating content navigation based on event context
CN117194647A (zh) 一种用于离线环境的智能问答系统、方法及装置
CN112133283A (zh) 一种多语言环境下语音应答系统设计
CN112417174A (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201225