CN112562679B - 一种离线语音交互方法、装置及介质 - Google Patents

一种离线语音交互方法、装置及介质 Download PDF

Info

Publication number
CN112562679B
CN112562679B CN202011355139.XA CN202011355139A CN112562679B CN 112562679 B CN112562679 B CN 112562679B CN 202011355139 A CN202011355139 A CN 202011355139A CN 112562679 B CN112562679 B CN 112562679B
Authority
CN
China
Prior art keywords
grammar
voice
local
offline
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011355139.XA
Other languages
English (en)
Other versions
CN112562679A (zh
Inventor
胡焱
王睿
牛鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Financial Information Technology Co Ltd
Original Assignee
Inspur Financial Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Financial Information Technology Co Ltd filed Critical Inspur Financial Information Technology Co Ltd
Priority to CN202011355139.XA priority Critical patent/CN112562679B/zh
Publication of CN112562679A publication Critical patent/CN112562679A/zh
Application granted granted Critical
Publication of CN112562679B publication Critical patent/CN112562679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种离线语音交互方法,包括:构建本地语法库,定义语法规则文件的框架语法,获取本地数据,根据本地数据创建语法规则,将语法规则进行分组、序列及封装,得到语法规则文件,将语法规则文件存入本地语法库;获取输入语音,从输入语音中剥离出有效语音;对有效语音进行语法识别,与本地语法库进行算法对比,获取识别信息,并输出识别信息。通过上述方式,本发明能够在没有网络的情况下就能实现语音交互服务。

Description

一种离线语音交互方法、装置及介质
技术领域
本发明涉及智能终端技术领域,特别是涉及一种离线语音交互方法、装置及介质。
背景技术
随着经济的发展与科技水平的提升,人们对于服务的体验越来越重视,这就促使各行各业开始在服务体验与服务质量上加大了投入,而语音识别与合成技术就是各领域中使用较为广泛的一种AI能力,但由于行业环境或基础硬件等原因,网络的使用可能会受到一定限制,网络的质量直接影响语音交互的服务,进而对服务体验产生影响。
发明内容
本发明主要解决的技术问题是提供一种离线语音交互方法、装置及介质,能够在没有网络的情况下就能实现语音交互服务。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种离线语音交互方法,包括:
构建本地语法库,定义语法规则文件的框架语法,获取本地数据,根据本地数据创建语法规则,将语法规则进行分组、序列及封装,得到语法规则文件,将语法规则文件存入本地语法库;
获取输入语音,从输入语音中剥离出有效语音;
对有效语音进行语法识别,与本地语法库通过识别算法对比,获取识别信息,并输出识别信息。
进一步,所述本地数据中包含语义交互内容,创建语法规则时首先对语义交互内容进行去重处理,然后根据去重处理后的语义交互内容创建语法规则。
进一步,语法规则创建完成后,需对本地语法库中的语法规则进行查重,相同则不操作,不同则进行下一步操作。
进一步,所述识别算法设有设定阈值,通过识别算法得到匹配阈值,当匹配阈值小于设定阈值时不做处理,重新获取输入语音;当匹配阈值大于设定阈值时,通过接口形式输出识别信息。
进一步,所述本地语法库设有更新机制,通过外部接口获取更新语义交互内容,通过更新语义交互内容创新更新语法规则。
进一步,所述框架语法包括语法名称、编码格式和常用语法规则。
一种离线语音交互装置,包括:本地语法库、语音获取及识别模块、语义判断模块、信息输出模块和更新模块;
所述本地语法库提供语法规则;
所述语音获取及识别模块用于获取语音并从语音中剥离出有效语音;
所述语义判断模块用于将有效语音与本地语法库通过识别算法对比,得出识别信息;
所述信息输出模块用于输出识别信息;
所述更新模块用于更新本地语法库中的语法规则。
一种离线语音交互介质,用于储存为上述离线语音交互方法所用的计算机软件指令,其包含用于执行上述为离线语音交互方法所设计的程序。
本发明的有益效果是:本发明能够在没有网络的情况下提供语音交互服务,并且可以根据行业的不同对交互内容进行差异化定制。
附图说明
图1是本发明一种离线语音交互方法一较佳实施例的流程图;
图2是所示一种离线语音交互装置的结构图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种离线语音交互方法,为了适应不同的定制交互需求,做到数据实时更新,同时也能被语音识别技术所兼容,故而使用动态创建BNF语法文件的技术来对原始数据进行处理,进而为服务所用;
定义BNF文件中的框架语法,包括语法名称、编码格式、常用语法规则;
读取原始数据,对数据进行去重处理,创建语法规则,创建时保证语法规则的唯一性;
将语法规则进行序列与封装,得到语法规则数据;
按照BNF语法规范,将语法规则数据输出到本地语法库。
见图1,离线语音交互方法实现过程如下:
S1、启动该服务,同时初始化语音识别与合成的AI能力;
S2、读取本地存储中的语义交互内容,同时可做分组处理;
S3、通过BNF语法,对获取的语义进行二次处理;
S4、通过语音识别引擎在本地构建语法库;
S5、开始语音获取,通过硬件返回有效语音;
S6、通过语音识别的AI能力对获取的语音进行语法识别;
S7、与本地语法库进行算法对比,获取有效的识别信息,通过其中的匹配阈值进行判断,当小于阈值时不做逻辑处理,重新执行步骤S5;
S8、当匹配阈值大于设定阈值时,通过接口形式输出识别信息;
S9、外部其他服务可按需进行处理;
S10、可通过暴露的接口对语义交互内容进行更新,之后服务会停止当前流程,从步骤S2开始执行。
基于与前述实施例中实现方法同样的发明构思,见图2,本说明书实施例还提供一种离线语音交互装置,包括:本地语法库、语音获取及识别模块、语义判断模块、信息输出模块和更新模块;
所述本地语法库提供语法规则;
所述语音获取及识别模块用于获取语音并从语音中剥离出有效语音;
所述语义判断模块用于将有效语音与本地语法库通过识别算法对比,得出识别信息;
所述信息输出模块用于输出识别信息;
所述更新模块用于更新本地语法库中的语法规则。
基于与前述实施例中实现方法同样的发明构思,本说明书实施例还提供一种离线语音交互介质,用于储存为上述离线语音交互方法所用的计算机软件指令,其包含用于执行上述为离线语音交互方法所设计的程序。
本申请基于语音识别与合成技术,在没有网络的情况下就能进行语音交互的服务,并且可以根据行业的不同对交互内容进行差异化定制。主要应用在安卓智能终端设备上,安卓设备可进行软件集成,按规定接口进行服务调用。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种离线语音交互方法,其特征在于,包括:
构建本地语法库,定义语法规则文件的框架语法,获取本地数据,根据本地数据创建语法规则,将语法规则进行分组、序列及封装,得到语法规则文件,将语法规则文件存入本地语法库;
获取输入语音,从输入语音中剥离出有效语音;
对有效语音进行语法识别,与本地语法库通过识别算法对比,获取识别信息,并输出识别信息;
离线语音交互方法实现过程如下:
S1、启动服务,同时初始化语音识别与合成的AI能力;
S2、读取本地存储中的语义交互内容,同时做分组处理;
S3、通过BNF语法,对获取的语义进行二次处理;
S4、通过语音识别引擎在本地构建语法库;
S5、开始语音获取,通过硬件返回有效语音;
S6、通过语音识别的AI能力对获取的语音进行语法识别;
S7、与本地语法库进行算法对比,获取有效的识别信息,通过其中的匹配阈值进行判断,当小于阈值时不做逻辑处理,重新执行步骤S5;
S8、当匹配阈值大于设定阈值时,通过接口形式输出识别信息;
S9、外部服务按需进行处理;
S10、通过暴露的接口对语义交互内容进行更新,之后服务会停止当前流程,从步骤S2开始执行。
2.根据权利要求1所述的一种离线语音交互方法,其特征在于:所述本地数据中包含语义交互内容,创建语法规则时首先对语义交互内容进行去重处理,然后根据去重处理后的语义交互内容创建语法规则。
3.根据权利要求2所述的一种离线语音交互方法,其特征在于:语法规则创建完成后,需对本地语法库中的语法规则进行查重,相同则不操作,不同则进行下一步操作。
4.根据权利要求1所述的一种离线语音交互方法,其特征在于:所述识别算法设有设定阈值,通过识别算法得到匹配阈值,当匹配阈值小于设定阈值时不做处理,重新获取输入语音;当匹配阈值大于设定阈值时,通过接口形式输出识别信息。
5.根据权利要求2所述的一种离线语音交互方法,其特征在于:所述本地语法库设有更新机制,通过外部接口获取更新语义交互内容,通过更新语义交互内容更新语法规则。
6.根据权利要求1所述的一种离线语音交互方法,其特征在于:所述框架语法包括语法名称、编码格式和常用语法规则。
7.一种离线语音交互装置,采用权利要求1所述的一种离线语音交互方法,其特征在于,离线语音交互装置包括:本地语法库、语音获取及识别模块、语义判断模块、信息输出模块和更新模块;
所述本地语法库提供语法规则;
所述语音获取及识别模块用于获取语音并从语音中剥离出有效语音;
所述语义判断模块用于将有效语音与本地语法库通过识别算法对比,得出识别信息;
所述信息输出模块用于输出识别信息;
所述更新模块用于更新本地语法库中的语法规则。
8.一种离线语音交互介质,其特征在于,用于储存为上述权利要求1-6中任一项所述离线语音交互方法所用的计算机软件指令,其包含用于执行为上述离线语音交互方法所设计的程序。
CN202011355139.XA 2020-11-26 2020-11-26 一种离线语音交互方法、装置及介质 Active CN112562679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011355139.XA CN112562679B (zh) 2020-11-26 2020-11-26 一种离线语音交互方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011355139.XA CN112562679B (zh) 2020-11-26 2020-11-26 一种离线语音交互方法、装置及介质

Publications (2)

Publication Number Publication Date
CN112562679A CN112562679A (zh) 2021-03-26
CN112562679B true CN112562679B (zh) 2024-06-14

Family

ID=75046159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011355139.XA Active CN112562679B (zh) 2020-11-26 2020-11-26 一种离线语音交互方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112562679B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325527A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的交互式用户界面
CN107808662A (zh) * 2016-09-07 2018-03-16 阿里巴巴集团控股有限公司 更新语音识别用的语法规则库的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2801716B1 (fr) * 1999-11-30 2002-01-04 Thomson Multimedia Sa Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation
US7630900B1 (en) * 2004-12-01 2009-12-08 Tellme Networks, Inc. Method and system for selecting grammars based on geographic information associated with a caller
CN105824857A (zh) * 2015-01-08 2016-08-03 中兴通讯股份有限公司 一种语音搜索方法、装置及终端
CN105261366B (zh) * 2015-08-31 2016-11-09 努比亚技术有限公司 语音识别方法、语音引擎及终端
CN108399912B (zh) * 2018-03-21 2020-11-03 江苏木盟智能科技有限公司 一种机器人的语音切换方法、服务器及系统
CN109524000A (zh) * 2018-12-28 2019-03-26 苏州思必驰信息科技有限公司 离线对话实现方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325527A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的交互式用户界面
CN107808662A (zh) * 2016-09-07 2018-03-16 阿里巴巴集团控股有限公司 更新语音识别用的语法规则库的方法及装置

Also Published As

Publication number Publication date
CN112562679A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN103077714B (zh) 信息的识别方法和装置
CN113889076B (zh) 语音识别及编解码方法、装置、电子设备及存储介质
CN111027291B (zh) 文本中标点符号添加、模型训练方法、装置及电子设备
WO2022116487A1 (zh) 基于生成对抗网络的语音处理方法、装置、设备及介质
CN111694926A (zh) 基于场景动态配置的交互处理方法、装置、计算机设备
CN112989008A (zh) 一种多轮对话改写方法、装置和电子设备
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112951233A (zh) 语音问答方法、装置、电子设备及可读存储介质
CN113987149A (zh) 任务型机器人的智能会话方法、系统及存储介质
CN112562679B (zh) 一种离线语音交互方法、装置及介质
CN111898363A (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN116541494A (zh) 模型训练方法、回复信息的方法、装置、设备及介质
CN114490969B (zh) 基于表格的问答方法、装置以及电子设备
CN112908339B (zh) 一种会议环节定位方法、装置、定位设备及可读存储介质
CN113869046B (zh) 一种自然语言文本的处理方法、装置、设备及存储介质
CN112714058B (zh) 一种即时打断ai语音的方法、系统及电子设备
CN113012680B (zh) 一种语音机器人用话术合成方法及装置
CN111970311B (zh) 会话切分方法、电子设备及计算机可读介质
CN113283218A (zh) 一种语义文本压缩方法及计算机设备
CN113486674A (zh) 基于人工智能的针对多轮对话进行语义分析的方法和装置
KR20220114378A (ko) 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템
CN112399019A (zh) 智能外呼方法、终端设备及可读存储介质
CN115934920B (zh) 针对人机对话的模型训练方法及相关装置
CN117292024B (zh) 基于语音的图像生成方法、装置、介质及电子设备
CN114078478B (zh) 语音交互的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant