CN111210821A - 一种基于互联网应用的智能语音识别系统 - Google Patents
一种基于互联网应用的智能语音识别系统 Download PDFInfo
- Publication number
- CN111210821A CN111210821A CN202010082693.9A CN202010082693A CN111210821A CN 111210821 A CN111210821 A CN 111210821A CN 202010082693 A CN202010082693 A CN 202010082693A CN 111210821 A CN111210821 A CN 111210821A
- Authority
- CN
- China
- Prior art keywords
- module
- voice
- client
- system based
- grammar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 230000008909 emotion recognition Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及智能交互技术领域,且公开了一种基于互联网应用的智能语音识别系统,采用C/S架构,包括提供语音识别服务的服务器和客户端,所述客户端获取音频信息后发送至云端服务器,所述云端服务器识别结果后按要求返回客户端,述智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成。该基于互联网应用的智能语音识别系统,通过多种用户词典和声学模型覆盖全部日常词汇和高频领域词汇,同时其来源也覆盖不同地域说话人口音,在不同的业务场景下都取得较好的识别效果,语言模型的对小众的语言表达方式也实现了支持,在个性化表达的场景下也能获得正确率较高的识别结果,同时输出也支持个性化表达的输出方式。
Description
技术领域
本发明涉及智能交互技术领域,具体为一种基于互联网应用的智能语音识别系统。
背景技术
语音识别技术将人类语音中的词汇内容转换为计算机可读的输入,作为人机交互的关键技术,语音识别技术在呼叫中心、电信增值、企业信息化系统、智能机器人、智能外呼、智能车载等应用系统中有了广泛的应用。
语音识别技术的应用领域、场景和人群广泛,不同的应用条件下有着不同的要求,因此,一种可以应用在任何领域、任何场景、任何时间、地点以及人群的语音识别技术亟其需要,满足信息时代动态更新和个性化输入的需要。
进一步,由于个性化的表达,在一些小众圈子会出现有别于现有语言的表达方式,按照传动的自然语言表达方式进行理解会存在较大的误差,语音识别系统需要增强对小众表达方式的理解能力。
发明内容
针对上述背景技术的不足,本发明提供了一种基于互联网应用的智能语音识别系统的技术方案,具有使用场景广泛和智能化识别精度高等优点,解决了背景技术提出的问题。
本发明提供如下技术方案:一种基于互联网应用的智能语音识别系统,采用C/S架构,包括提供语音识别服务的服务器和客户端,所述客户端获取音频信息后发送至云端服务器,所述云端服务器识别结果后按要求返回客户端;
所述智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成;
所述接入层包括客户端上安装的语音识别应用、对应的网络通信协议和服务器上的接入模块;
所述API层对框架内技术按功能进行封装,并提供方便上层调用的API接口;
所述框架层包含有实现具体功能的子系统;
所述框架支持库层是对框架功能的抽象,以更安全、容易扩展的方式为框架层提供接口调用。
优选的,所述框架层内子系统包含有用于端点检测的例子以及系统维护、用于解码的文法系统、自然语言系统以及个性语言系统、用于音频录入的语音录入、功能库系统、用于文法训练的识别引擎系统,所述API层包含有与框架层对应的端点检测API、解码API、音频录入和JSGF文法。
优选的,所述功能模块系统包含有语音增强模块、检测语音端点模块、话者分离模块、情绪识别模块和性别/情绪识别模块,所述语音录入包括有多重采样率支持模块和多重录入方式支持模块。
优选的,所述文法系统模块包含有文法结构器、文法自动构建模块和内置文法模块,所述自然语言系统包括规模语料构建模块和标点符号支持模块,所述个性语言系统包括个性语言构建模块和个性符号支持模块。
优选的,所述识别引擎系统包括在线提取特征模块、解码语音模块、声学模块、发音词典模块、语音模型模块。
优选的,所述识别引擎系统还包括有性能优化模块、灵活参数设置模块和多模型融合模块。
优选的,所述声学模型由声学语料经过训练获得,所述语言模型由文本语料训练获得,所述发音词典包含有方言词典。
本发明具备以下有益效果:
1、该基于互联网应用的智能语音识别系统,通过多种用户词典和声学模型覆盖全部日常词汇和高频领域词汇,同时其来源也覆盖不同地域说话人口音,在不同的业务场景下都取得较好的识别效果。
2、该基于互联网应用的智能语音识别系统,语言模型的对小众的语言表达方式也实现了支持,在个性化表达的场景下也能获得正确率较高的识别结果,同时输出也支持个性化表达的输出方式。
附图说明
图1为本发明的应用结构示意图;
图2为本发明的结构框图;
图3为本发明功能实现框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,一种基于互联网应用的智能语音识别系统,采用C/S架构,包括提供语音识别服务的服务器和客户端,其特征在于:客户端获取音频信息后发送至云端服务器,云端服务器识别结果后按要求返回客户端,智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成;接入层包括客户端上安装的语音识别应用、对应的网络通信协议和服务器上的接入模块,API层对框架内技术按功能进行封装,并提供方便上层调用的API接口,框架层包含有实现具体功能的子系统,框架支持库层是对框架功能的抽象,以更安全、容易扩展的方式为框架层提供接口调用。
例子包括JAVA实现模块、C语言模块,JSDF文法模块等,列举多种语言方式的实现过程,系统维护包括运行日志模块、调用日志模块和实现监控模块。
当音频信息传输至服务器后,通过音频输入调用语音输入模块和功能库系统模块对音频信息进行前端语音处理,通过语音录入内的多种采样率支持模块和多种录入方式支持模块对种种数据进行支持,然后依次通过语音增强模块进行噪音取出,通过检测语音端点模块对语音进行分析,确定语音中包括的用户说话的起始和结束过程,使系统能够快速响应用户输入,以便将语音发送识别服务器开始解码,并且在用户结束输入,快速将识别结果返回客户端,使用户有较好的体验,通过话者分离模块、情绪识别模块和性别/年龄识别模块识别说话人、说话人情绪以及性别、年龄并标注,提高识别引擎时对语义识别的准确性。
经过前端语音处理后,获得最适合识别的语音片段,通过JSGF文法调用识别引擎系统,通过在线提取特征模块提取语音片段特征,通过解码语音模块生成搜索特征,搜索声学模型、发音词典和语言模型相关的声学条件和语言学条件得到文法序列,语言模型包括个性语言模型。
通过解码API选择性调用文法系统模块、自然语言系统模块或个性语言模块,将文法序列解码得到需要的文本序列并输出。
性能优化模块和灵活配置参数模块自动检测系统运行情况,以动态调整语音识别过程的策略,而不使系统情况成为该过程的性能瓶颈,在系统较忙时,为了避免用户等待太长时间,语音过程自动采用计算量小但具有足够精度的策略以保证系统的响应速度。而在系统不忙时,识别过程自动提高识别精度,以达到更优的识别效果。自动优化功能可以保系统稳定可用的前提下,充分利用计算资源,提高资源的利用率。
声学模型由声学语料经过训练获得,语言模型由文本语料训练获得,发音词典包含有方言词典,声学语料和文本语料来自规模语料构建模块和个性语料构建模块。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于互联网应用的智能语音识别系统,采用C/S架构,包括提供语音识别服务的服务器和客户端,其特征在于:所述客户端获取音频信息后发送至云端服务器,所述云端服务器识别结果后按要求返回客户端;
所述智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成;
所述接入层包括客户端上安装的语音识别应用、对应的网络通信协议和服务器上的接入模块;
所述API层对框架内技术按功能进行封装,并提供方便上层调用的API接口;
所述框架层包含有实现具体功能的子系统;
所述框架支持库层是对框架功能的抽象,以更安全、容易扩展的方式为框架层提供接口调用。
2.根据权利要求1所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述框架层内子系统包含有用于端点检测的例子以及系统维护、用于解码的文法系统、自然语言系统以及个性语言系统、用于音频录入的语音录入、功能库系统、用于文法训练的识别引擎系统,所述API层包含有与框架层对应的端点检测API、解码API、音频录入和JSGF文法。
3.根据权利要求2所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述功能模块系统包含有语音增强模块、检测语音端点模块、话者分离模块、情绪识别模块和性别/情绪识别模块,所述语音录入包括有多重采样率支持模块和多重录入方式支持模块。
4.根据权利要求2所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述文法系统模块包含有文法结构器、文法自动构建模块和内置文法模块,所述自然语言系统包括规模语料构建模块和标点符号支持模块,所述个性语言系统包括个性语言构建模块和个性符号支持模块。
5.根据权利要求2所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述识别引擎系统包括在线提取特征模块、解码语音模块、声学模块、发音词典模块、语音模型模块。
6.根据权利要求2所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述识别引擎系统还包括有性能优化模块、灵活参数设置模块和多模型融合模块。
7.根据权利要求5所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述声学模型由声学语料经过训练获得,所述语言模型由文本语料训练获得,所述发音词典包含有方言词典。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082693.9A CN111210821A (zh) | 2020-02-07 | 2020-02-07 | 一种基于互联网应用的智能语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082693.9A CN111210821A (zh) | 2020-02-07 | 2020-02-07 | 一种基于互联网应用的智能语音识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111210821A true CN111210821A (zh) | 2020-05-29 |
Family
ID=70789911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010082693.9A Pending CN111210821A (zh) | 2020-02-07 | 2020-02-07 | 一种基于互联网应用的智能语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111210821A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833852A (zh) * | 2020-06-30 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 一种声学模型的训练方法、装置以及计算机可读存储介质 |
CN112398701A (zh) * | 2021-01-18 | 2021-02-23 | 南京纳新信息科技有限公司 | 一种基于互联网应用的智能语音识别系统 |
CN112882481A (zh) * | 2021-04-28 | 2021-06-01 | 北京邮电大学 | 一种基于slam的移动式多模态交互导览机器人系统 |
CN113763046A (zh) * | 2021-09-07 | 2021-12-07 | 四川易海天科技有限公司 | 一种基于大数据分析的移动互联网车载智能投放系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1770747A (zh) * | 2005-10-17 | 2006-05-10 | 陈汉奕 | 基于网络的多语种语音、文字信息即时互译通信系统及方法 |
CN101478613A (zh) * | 2009-02-03 | 2009-07-08 | 中国电信股份有限公司 | 基于软排队呼叫中心的多语言语音识别方法和系统 |
CN102760431A (zh) * | 2012-07-12 | 2012-10-31 | 上海语联信息技术有限公司 | 智能化的语音识别系统 |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN109643330A (zh) * | 2016-08-16 | 2019-04-16 | 电子湾有限公司 | 具有自然语言理解能力的在线个人助理 |
-
2020
- 2020-02-07 CN CN202010082693.9A patent/CN111210821A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1770747A (zh) * | 2005-10-17 | 2006-05-10 | 陈汉奕 | 基于网络的多语种语音、文字信息即时互译通信系统及方法 |
CN101478613A (zh) * | 2009-02-03 | 2009-07-08 | 中国电信股份有限公司 | 基于软排队呼叫中心的多语言语音识别方法和系统 |
CN102760431A (zh) * | 2012-07-12 | 2012-10-31 | 上海语联信息技术有限公司 | 智能化的语音识别系统 |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN109643330A (zh) * | 2016-08-16 | 2019-04-16 | 电子湾有限公司 | 具有自然语言理解能力的在线个人助理 |
Non-Patent Citations (1)
Title |
---|
刘鑫: "智能家庭养老系统的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833852A (zh) * | 2020-06-30 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 一种声学模型的训练方法、装置以及计算机可读存储介质 |
CN112398701A (zh) * | 2021-01-18 | 2021-02-23 | 南京纳新信息科技有限公司 | 一种基于互联网应用的智能语音识别系统 |
CN112882481A (zh) * | 2021-04-28 | 2021-06-01 | 北京邮电大学 | 一种基于slam的移动式多模态交互导览机器人系统 |
CN113763046A (zh) * | 2021-09-07 | 2021-12-07 | 四川易海天科技有限公司 | 一种基于大数据分析的移动互联网车载智能投放系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
US10672391B2 (en) | Improving automatic speech recognition of multilingual named entities | |
US10917758B1 (en) | Voice-based messaging | |
CN111210821A (zh) | 一种基于互联网应用的智能语音识别系统 | |
WO2017076222A1 (zh) | 语音识别方法及装置 | |
CN110827805B (zh) | 语音识别模型训练方法、语音识别方法和装置 | |
CN111344780A (zh) | 基于上下文的设备仲裁 | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
CN112037774B (zh) | 用于关键短语识别的系统和方法 | |
US20140379334A1 (en) | Natural language understanding automatic speech recognition post processing | |
CN112259089B (zh) | 语音识别方法及装置 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
US11676582B2 (en) | Detecting conversations with computing devices | |
KR20230107860A (ko) | 실제 노이즈를 사용한 음성 개인화 및 연합 트레이닝 | |
JP6625772B2 (ja) | 検索方法及びそれを用いた電子機器 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
JP2023511091A (ja) | 自動音声認識のための英数字列のバイアス付加 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
US20130007035A1 (en) | Systems and methods for cross-lingual audio search | |
CN110809796B (zh) | 具有解耦唤醒短语的语音识别系统和方法 | |
CN111862943A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN117711376A (zh) | 语种识别方法、系统、设备及存储介质 | |
Woollacott et al. | Benchmarking speech technologies | |
TWI731921B (zh) | 語音識別方法及裝置 | |
WO2021161856A1 (ja) | 情報処理装置及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: He Guotao Inventor after: Si Yujing Inventor before: He Guotao Inventor before: Si Yujing Inventor before: Ma Chenglong |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200529 |