CN112562679B - 一种离线语音交互方法、装置及介质 - Google Patents
一种离线语音交互方法、装置及介质 Download PDFInfo
- Publication number
- CN112562679B CN112562679B CN202011355139.XA CN202011355139A CN112562679B CN 112562679 B CN112562679 B CN 112562679B CN 202011355139 A CN202011355139 A CN 202011355139A CN 112562679 B CN112562679 B CN 112562679B
- Authority
- CN
- China
- Prior art keywords
- grammar
- voice
- local
- offline
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000004806 packaging method and process Methods 0.000 claims abstract description 3
- 238000012163 sequencing technique Methods 0.000 claims abstract description 3
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种离线语音交互方法,包括:构建本地语法库,定义语法规则文件的框架语法,获取本地数据,根据本地数据创建语法规则,将语法规则进行分组、序列及封装,得到语法规则文件,将语法规则文件存入本地语法库;获取输入语音,从输入语音中剥离出有效语音;对有效语音进行语法识别,与本地语法库进行算法对比,获取识别信息,并输出识别信息。通过上述方式,本发明能够在没有网络的情况下就能实现语音交互服务。
Description
技术领域
本发明涉及智能终端技术领域,特别是涉及一种离线语音交互方法、装置及介质。
背景技术
随着经济的发展与科技水平的提升,人们对于服务的体验越来越重视,这就促使各行各业开始在服务体验与服务质量上加大了投入,而语音识别与合成技术就是各领域中使用较为广泛的一种AI能力,但由于行业环境或基础硬件等原因,网络的使用可能会受到一定限制,网络的质量直接影响语音交互的服务,进而对服务体验产生影响。
发明内容
本发明主要解决的技术问题是提供一种离线语音交互方法、装置及介质,能够在没有网络的情况下就能实现语音交互服务。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种离线语音交互方法,包括:
构建本地语法库,定义语法规则文件的框架语法,获取本地数据,根据本地数据创建语法规则,将语法规则进行分组、序列及封装,得到语法规则文件,将语法规则文件存入本地语法库;
获取输入语音,从输入语音中剥离出有效语音;
对有效语音进行语法识别,与本地语法库通过识别算法对比,获取识别信息,并输出识别信息。
进一步,所述本地数据中包含语义交互内容,创建语法规则时首先对语义交互内容进行去重处理,然后根据去重处理后的语义交互内容创建语法规则。
进一步,语法规则创建完成后,需对本地语法库中的语法规则进行查重,相同则不操作,不同则进行下一步操作。
进一步,所述识别算法设有设定阈值,通过识别算法得到匹配阈值,当匹配阈值小于设定阈值时不做处理,重新获取输入语音;当匹配阈值大于设定阈值时,通过接口形式输出识别信息。
进一步,所述本地语法库设有更新机制,通过外部接口获取更新语义交互内容,通过更新语义交互内容创新更新语法规则。
进一步,所述框架语法包括语法名称、编码格式和常用语法规则。
一种离线语音交互装置,包括:本地语法库、语音获取及识别模块、语义判断模块、信息输出模块和更新模块;
所述本地语法库提供语法规则;
所述语音获取及识别模块用于获取语音并从语音中剥离出有效语音;
所述语义判断模块用于将有效语音与本地语法库通过识别算法对比,得出识别信息;
所述信息输出模块用于输出识别信息;
所述更新模块用于更新本地语法库中的语法规则。
一种离线语音交互介质,用于储存为上述离线语音交互方法所用的计算机软件指令,其包含用于执行上述为离线语音交互方法所设计的程序。
本发明的有益效果是:本发明能够在没有网络的情况下提供语音交互服务,并且可以根据行业的不同对交互内容进行差异化定制。
附图说明
图1是本发明一种离线语音交互方法一较佳实施例的流程图;
图2是所示一种离线语音交互装置的结构图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种离线语音交互方法,为了适应不同的定制交互需求,做到数据实时更新,同时也能被语音识别技术所兼容,故而使用动态创建BNF语法文件的技术来对原始数据进行处理,进而为服务所用;
定义BNF文件中的框架语法,包括语法名称、编码格式、常用语法规则;
读取原始数据,对数据进行去重处理,创建语法规则,创建时保证语法规则的唯一性;
将语法规则进行序列与封装,得到语法规则数据;
按照BNF语法规范,将语法规则数据输出到本地语法库。
见图1,离线语音交互方法实现过程如下:
S1、启动该服务,同时初始化语音识别与合成的AI能力;
S2、读取本地存储中的语义交互内容,同时可做分组处理;
S3、通过BNF语法,对获取的语义进行二次处理;
S4、通过语音识别引擎在本地构建语法库;
S5、开始语音获取,通过硬件返回有效语音;
S6、通过语音识别的AI能力对获取的语音进行语法识别;
S7、与本地语法库进行算法对比,获取有效的识别信息,通过其中的匹配阈值进行判断,当小于阈值时不做逻辑处理,重新执行步骤S5;
S8、当匹配阈值大于设定阈值时,通过接口形式输出识别信息;
S9、外部其他服务可按需进行处理;
S10、可通过暴露的接口对语义交互内容进行更新,之后服务会停止当前流程,从步骤S2开始执行。
基于与前述实施例中实现方法同样的发明构思,见图2,本说明书实施例还提供一种离线语音交互装置,包括:本地语法库、语音获取及识别模块、语义判断模块、信息输出模块和更新模块;
所述本地语法库提供语法规则;
所述语音获取及识别模块用于获取语音并从语音中剥离出有效语音;
所述语义判断模块用于将有效语音与本地语法库通过识别算法对比,得出识别信息;
所述信息输出模块用于输出识别信息;
所述更新模块用于更新本地语法库中的语法规则。
基于与前述实施例中实现方法同样的发明构思,本说明书实施例还提供一种离线语音交互介质,用于储存为上述离线语音交互方法所用的计算机软件指令,其包含用于执行上述为离线语音交互方法所设计的程序。
本申请基于语音识别与合成技术,在没有网络的情况下就能进行语音交互的服务,并且可以根据行业的不同对交互内容进行差异化定制。主要应用在安卓智能终端设备上,安卓设备可进行软件集成,按规定接口进行服务调用。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种离线语音交互方法,其特征在于,包括:
构建本地语法库,定义语法规则文件的框架语法,获取本地数据,根据本地数据创建语法规则,将语法规则进行分组、序列及封装,得到语法规则文件,将语法规则文件存入本地语法库;
获取输入语音,从输入语音中剥离出有效语音;
对有效语音进行语法识别,与本地语法库通过识别算法对比,获取识别信息,并输出识别信息;
离线语音交互方法实现过程如下:
S1、启动服务,同时初始化语音识别与合成的AI能力;
S2、读取本地存储中的语义交互内容,同时做分组处理;
S3、通过BNF语法,对获取的语义进行二次处理;
S4、通过语音识别引擎在本地构建语法库;
S5、开始语音获取,通过硬件返回有效语音;
S6、通过语音识别的AI能力对获取的语音进行语法识别;
S7、与本地语法库进行算法对比,获取有效的识别信息,通过其中的匹配阈值进行判断,当小于阈值时不做逻辑处理,重新执行步骤S5;
S8、当匹配阈值大于设定阈值时,通过接口形式输出识别信息;
S9、外部服务按需进行处理;
S10、通过暴露的接口对语义交互内容进行更新,之后服务会停止当前流程,从步骤S2开始执行。
2.根据权利要求1所述的一种离线语音交互方法,其特征在于:所述本地数据中包含语义交互内容,创建语法规则时首先对语义交互内容进行去重处理,然后根据去重处理后的语义交互内容创建语法规则。
3.根据权利要求2所述的一种离线语音交互方法,其特征在于:语法规则创建完成后,需对本地语法库中的语法规则进行查重,相同则不操作,不同则进行下一步操作。
4.根据权利要求1所述的一种离线语音交互方法,其特征在于:所述识别算法设有设定阈值,通过识别算法得到匹配阈值,当匹配阈值小于设定阈值时不做处理,重新获取输入语音;当匹配阈值大于设定阈值时,通过接口形式输出识别信息。
5.根据权利要求2所述的一种离线语音交互方法,其特征在于:所述本地语法库设有更新机制,通过外部接口获取更新语义交互内容,通过更新语义交互内容更新语法规则。
6.根据权利要求1所述的一种离线语音交互方法,其特征在于:所述框架语法包括语法名称、编码格式和常用语法规则。
7.一种离线语音交互装置,采用权利要求1所述的一种离线语音交互方法,其特征在于,离线语音交互装置包括:本地语法库、语音获取及识别模块、语义判断模块、信息输出模块和更新模块;
所述本地语法库提供语法规则;
所述语音获取及识别模块用于获取语音并从语音中剥离出有效语音;
所述语义判断模块用于将有效语音与本地语法库通过识别算法对比,得出识别信息;
所述信息输出模块用于输出识别信息;
所述更新模块用于更新本地语法库中的语法规则。
8.一种离线语音交互介质,其特征在于,用于储存为上述权利要求1-6中任一项所述离线语音交互方法所用的计算机软件指令,其包含用于执行为上述离线语音交互方法所设计的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011355139.XA CN112562679B (zh) | 2020-11-26 | 2020-11-26 | 一种离线语音交互方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011355139.XA CN112562679B (zh) | 2020-11-26 | 2020-11-26 | 一种离线语音交互方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562679A CN112562679A (zh) | 2021-03-26 |
CN112562679B true CN112562679B (zh) | 2024-06-14 |
Family
ID=75046159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011355139.XA Active CN112562679B (zh) | 2020-11-26 | 2020-11-26 | 一种离线语音交互方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562679B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1325527A (zh) * | 1998-09-09 | 2001-12-05 | 单一声音技术公司 | 采用语音识别和自然语言处理的交互式用户界面 |
CN107808662A (zh) * | 2016-09-07 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 更新语音识别用的语法规则库的方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2801716B1 (fr) * | 1999-11-30 | 2002-01-04 | Thomson Multimedia Sa | Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation |
US7630900B1 (en) * | 2004-12-01 | 2009-12-08 | Tellme Networks, Inc. | Method and system for selecting grammars based on geographic information associated with a caller |
CN105824857A (zh) * | 2015-01-08 | 2016-08-03 | 中兴通讯股份有限公司 | 一种语音搜索方法、装置及终端 |
CN105261366B (zh) * | 2015-08-31 | 2016-11-09 | 努比亚技术有限公司 | 语音识别方法、语音引擎及终端 |
CN108399912B (zh) * | 2018-03-21 | 2020-11-03 | 江苏木盟智能科技有限公司 | 一种机器人的语音切换方法、服务器及系统 |
CN109524000A (zh) * | 2018-12-28 | 2019-03-26 | 苏州思必驰信息科技有限公司 | 离线对话实现方法和装置 |
-
2020
- 2020-11-26 CN CN202011355139.XA patent/CN112562679B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1325527A (zh) * | 1998-09-09 | 2001-12-05 | 单一声音技术公司 | 采用语音识别和自然语言处理的交互式用户界面 |
CN107808662A (zh) * | 2016-09-07 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 更新语音识别用的语法规则库的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112562679A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103077714B (zh) | 信息的识别方法和装置 | |
CN113889076B (zh) | 语音识别及编解码方法、装置、电子设备及存储介质 | |
CN111027291B (zh) | 文本中标点符号添加、模型训练方法、装置及电子设备 | |
WO2022116487A1 (zh) | 基于生成对抗网络的语音处理方法、装置、设备及介质 | |
CN111694926A (zh) | 基于场景动态配置的交互处理方法、装置、计算机设备 | |
CN112989008A (zh) | 一种多轮对话改写方法、装置和电子设备 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN113987149A (zh) | 任务型机器人的智能会话方法、系统及存储介质 | |
CN112562679B (zh) | 一种离线语音交互方法、装置及介质 | |
CN111898363A (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN116541494A (zh) | 模型训练方法、回复信息的方法、装置、设备及介质 | |
CN114490969B (zh) | 基于表格的问答方法、装置以及电子设备 | |
CN112908339B (zh) | 一种会议环节定位方法、装置、定位设备及可读存储介质 | |
CN113869046B (zh) | 一种自然语言文本的处理方法、装置、设备及存储介质 | |
CN112714058B (zh) | 一种即时打断ai语音的方法、系统及电子设备 | |
CN113012680B (zh) | 一种语音机器人用话术合成方法及装置 | |
CN111970311B (zh) | 会话切分方法、电子设备及计算机可读介质 | |
CN113283218A (zh) | 一种语义文本压缩方法及计算机设备 | |
CN113486674A (zh) | 基于人工智能的针对多轮对话进行语义分析的方法和装置 | |
KR20220114378A (ko) | 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템 | |
CN112399019A (zh) | 智能外呼方法、终端设备及可读存储介质 | |
CN115934920B (zh) | 针对人机对话的模型训练方法及相关装置 | |
CN117292024B (zh) | 基于语音的图像生成方法、装置、介质及电子设备 | |
CN114078478B (zh) | 语音交互的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |