CN111210821A - 一种基于互联网应用的智能语音识别系统 - Google Patents

一种基于互联网应用的智能语音识别系统 Download PDF

Info

Publication number
CN111210821A
CN111210821A CN202010082693.9A CN202010082693A CN111210821A CN 111210821 A CN111210821 A CN 111210821A CN 202010082693 A CN202010082693 A CN 202010082693A CN 111210821 A CN111210821 A CN 111210821A
Authority
CN
China
Prior art keywords
module
voice
client
system based
grammar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010082693.9A
Other languages
English (en)
Inventor
何国涛
司玉景
马成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puqiang Times Zhuhai Hengqin Information Technology Co Ltd
Original Assignee
Puqiang Times Zhuhai Hengqin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Puqiang Times Zhuhai Hengqin Information Technology Co Ltd filed Critical Puqiang Times Zhuhai Hengqin Information Technology Co Ltd
Priority to CN202010082693.9A priority Critical patent/CN111210821A/zh
Publication of CN111210821A publication Critical patent/CN111210821A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及智能交互技术领域,且公开了一种基于互联网应用的智能语音识别系统,采用C/S架构,包括提供语音识别服务的服务器和客户端,所述客户端获取音频信息后发送至云端服务器,所述云端服务器识别结果后按要求返回客户端,述智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成。该基于互联网应用的智能语音识别系统,通过多种用户词典和声学模型覆盖全部日常词汇和高频领域词汇,同时其来源也覆盖不同地域说话人口音,在不同的业务场景下都取得较好的识别效果,语言模型的对小众的语言表达方式也实现了支持,在个性化表达的场景下也能获得正确率较高的识别结果,同时输出也支持个性化表达的输出方式。

Description

一种基于互联网应用的智能语音识别系统
技术领域
本发明涉及智能交互技术领域,具体为一种基于互联网应用的智能语音识别系统。
背景技术
语音识别技术将人类语音中的词汇内容转换为计算机可读的输入,作为人机交互的关键技术,语音识别技术在呼叫中心、电信增值、企业信息化系统、智能机器人、智能外呼、智能车载等应用系统中有了广泛的应用。
语音识别技术的应用领域、场景和人群广泛,不同的应用条件下有着不同的要求,因此,一种可以应用在任何领域、任何场景、任何时间、地点以及人群的语音识别技术亟其需要,满足信息时代动态更新和个性化输入的需要。
进一步,由于个性化的表达,在一些小众圈子会出现有别于现有语言的表达方式,按照传动的自然语言表达方式进行理解会存在较大的误差,语音识别系统需要增强对小众表达方式的理解能力。
发明内容
针对上述背景技术的不足,本发明提供了一种基于互联网应用的智能语音识别系统的技术方案,具有使用场景广泛和智能化识别精度高等优点,解决了背景技术提出的问题。
本发明提供如下技术方案:一种基于互联网应用的智能语音识别系统,采用C/S架构,包括提供语音识别服务的服务器和客户端,所述客户端获取音频信息后发送至云端服务器,所述云端服务器识别结果后按要求返回客户端;
所述智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成;
所述接入层包括客户端上安装的语音识别应用、对应的网络通信协议和服务器上的接入模块;
所述API层对框架内技术按功能进行封装,并提供方便上层调用的API接口;
所述框架层包含有实现具体功能的子系统;
所述框架支持库层是对框架功能的抽象,以更安全、容易扩展的方式为框架层提供接口调用。
优选的,所述框架层内子系统包含有用于端点检测的例子以及系统维护、用于解码的文法系统、自然语言系统以及个性语言系统、用于音频录入的语音录入、功能库系统、用于文法训练的识别引擎系统,所述API层包含有与框架层对应的端点检测API、解码API、音频录入和JSGF文法。
优选的,所述功能模块系统包含有语音增强模块、检测语音端点模块、话者分离模块、情绪识别模块和性别/情绪识别模块,所述语音录入包括有多重采样率支持模块和多重录入方式支持模块。
优选的,所述文法系统模块包含有文法结构器、文法自动构建模块和内置文法模块,所述自然语言系统包括规模语料构建模块和标点符号支持模块,所述个性语言系统包括个性语言构建模块和个性符号支持模块。
优选的,所述识别引擎系统包括在线提取特征模块、解码语音模块、声学模块、发音词典模块、语音模型模块。
优选的,所述识别引擎系统还包括有性能优化模块、灵活参数设置模块和多模型融合模块。
优选的,所述声学模型由声学语料经过训练获得,所述语言模型由文本语料训练获得,所述发音词典包含有方言词典。
本发明具备以下有益效果:
1、该基于互联网应用的智能语音识别系统,通过多种用户词典和声学模型覆盖全部日常词汇和高频领域词汇,同时其来源也覆盖不同地域说话人口音,在不同的业务场景下都取得较好的识别效果。
2、该基于互联网应用的智能语音识别系统,语言模型的对小众的语言表达方式也实现了支持,在个性化表达的场景下也能获得正确率较高的识别结果,同时输出也支持个性化表达的输出方式。
附图说明
图1为本发明的应用结构示意图;
图2为本发明的结构框图;
图3为本发明功能实现框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,一种基于互联网应用的智能语音识别系统,采用C/S架构,包括提供语音识别服务的服务器和客户端,其特征在于:客户端获取音频信息后发送至云端服务器,云端服务器识别结果后按要求返回客户端,智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成;接入层包括客户端上安装的语音识别应用、对应的网络通信协议和服务器上的接入模块,API层对框架内技术按功能进行封装,并提供方便上层调用的API接口,框架层包含有实现具体功能的子系统,框架支持库层是对框架功能的抽象,以更安全、容易扩展的方式为框架层提供接口调用。
例子包括JAVA实现模块、C语言模块,JSDF文法模块等,列举多种语言方式的实现过程,系统维护包括运行日志模块、调用日志模块和实现监控模块。
当音频信息传输至服务器后,通过音频输入调用语音输入模块和功能库系统模块对音频信息进行前端语音处理,通过语音录入内的多种采样率支持模块和多种录入方式支持模块对种种数据进行支持,然后依次通过语音增强模块进行噪音取出,通过检测语音端点模块对语音进行分析,确定语音中包括的用户说话的起始和结束过程,使系统能够快速响应用户输入,以便将语音发送识别服务器开始解码,并且在用户结束输入,快速将识别结果返回客户端,使用户有较好的体验,通过话者分离模块、情绪识别模块和性别/年龄识别模块识别说话人、说话人情绪以及性别、年龄并标注,提高识别引擎时对语义识别的准确性。
经过前端语音处理后,获得最适合识别的语音片段,通过JSGF文法调用识别引擎系统,通过在线提取特征模块提取语音片段特征,通过解码语音模块生成搜索特征,搜索声学模型、发音词典和语言模型相关的声学条件和语言学条件得到文法序列,语言模型包括个性语言模型。
通过解码API选择性调用文法系统模块、自然语言系统模块或个性语言模块,将文法序列解码得到需要的文本序列并输出。
性能优化模块和灵活配置参数模块自动检测系统运行情况,以动态调整语音识别过程的策略,而不使系统情况成为该过程的性能瓶颈,在系统较忙时,为了避免用户等待太长时间,语音过程自动采用计算量小但具有足够精度的策略以保证系统的响应速度。而在系统不忙时,识别过程自动提高识别精度,以达到更优的识别效果。自动优化功能可以保系统稳定可用的前提下,充分利用计算资源,提高资源的利用率。
声学模型由声学语料经过训练获得,语言模型由文本语料训练获得,发音词典包含有方言词典,声学语料和文本语料来自规模语料构建模块和个性语料构建模块。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于互联网应用的智能语音识别系统,采用C/S架构,包括提供语音识别服务的服务器和客户端,其特征在于:所述客户端获取音频信息后发送至云端服务器,所述云端服务器识别结果后按要求返回客户端;
所述智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成;
所述接入层包括客户端上安装的语音识别应用、对应的网络通信协议和服务器上的接入模块;
所述API层对框架内技术按功能进行封装,并提供方便上层调用的API接口;
所述框架层包含有实现具体功能的子系统;
所述框架支持库层是对框架功能的抽象,以更安全、容易扩展的方式为框架层提供接口调用。
2.根据权利要求1所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述框架层内子系统包含有用于端点检测的例子以及系统维护、用于解码的文法系统、自然语言系统以及个性语言系统、用于音频录入的语音录入、功能库系统、用于文法训练的识别引擎系统,所述API层包含有与框架层对应的端点检测API、解码API、音频录入和JSGF文法。
3.根据权利要求2所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述功能模块系统包含有语音增强模块、检测语音端点模块、话者分离模块、情绪识别模块和性别/情绪识别模块,所述语音录入包括有多重采样率支持模块和多重录入方式支持模块。
4.根据权利要求2所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述文法系统模块包含有文法结构器、文法自动构建模块和内置文法模块,所述自然语言系统包括规模语料构建模块和标点符号支持模块,所述个性语言系统包括个性语言构建模块和个性符号支持模块。
5.根据权利要求2所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述识别引擎系统包括在线提取特征模块、解码语音模块、声学模块、发音词典模块、语音模型模块。
6.根据权利要求2所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述识别引擎系统还包括有性能优化模块、灵活参数设置模块和多模型融合模块。
7.根据权利要求5所述的一种基于互联网应用的智能语音识别系统,其特征在于:所述声学模型由声学语料经过训练获得,所述语言模型由文本语料训练获得,所述发音词典包含有方言词典。
CN202010082693.9A 2020-02-07 2020-02-07 一种基于互联网应用的智能语音识别系统 Pending CN111210821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010082693.9A CN111210821A (zh) 2020-02-07 2020-02-07 一种基于互联网应用的智能语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010082693.9A CN111210821A (zh) 2020-02-07 2020-02-07 一种基于互联网应用的智能语音识别系统

Publications (1)

Publication Number Publication Date
CN111210821A true CN111210821A (zh) 2020-05-29

Family

ID=70789911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010082693.9A Pending CN111210821A (zh) 2020-02-07 2020-02-07 一种基于互联网应用的智能语音识别系统

Country Status (1)

Country Link
CN (1) CN111210821A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833852A (zh) * 2020-06-30 2020-10-27 苏州思必驰信息科技有限公司 一种声学模型的训练方法、装置以及计算机可读存储介质
CN112398701A (zh) * 2021-01-18 2021-02-23 南京纳新信息科技有限公司 一种基于互联网应用的智能语音识别系统
CN112882481A (zh) * 2021-04-28 2021-06-01 北京邮电大学 一种基于slam的移动式多模态交互导览机器人系统
CN113763046A (zh) * 2021-09-07 2021-12-07 四川易海天科技有限公司 一种基于大数据分析的移动互联网车载智能投放系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770747A (zh) * 2005-10-17 2006-05-10 陈汉奕 基于网络的多语种语音、文字信息即时互译通信系统及方法
CN101478613A (zh) * 2009-02-03 2009-07-08 中国电信股份有限公司 基于软排队呼叫中心的多语言语音识别方法和系统
CN102760431A (zh) * 2012-07-12 2012-10-31 上海语联信息技术有限公司 智能化的语音识别系统
CN105070288A (zh) * 2015-07-02 2015-11-18 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别系统及方法
CN109643330A (zh) * 2016-08-16 2019-04-16 电子湾有限公司 具有自然语言理解能力的在线个人助理

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770747A (zh) * 2005-10-17 2006-05-10 陈汉奕 基于网络的多语种语音、文字信息即时互译通信系统及方法
CN101478613A (zh) * 2009-02-03 2009-07-08 中国电信股份有限公司 基于软排队呼叫中心的多语言语音识别方法和系统
CN102760431A (zh) * 2012-07-12 2012-10-31 上海语联信息技术有限公司 智能化的语音识别系统
CN105070288A (zh) * 2015-07-02 2015-11-18 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别系统及方法
CN109643330A (zh) * 2016-08-16 2019-04-16 电子湾有限公司 具有自然语言理解能力的在线个人助理

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘鑫: "智能家庭养老系统的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833852A (zh) * 2020-06-30 2020-10-27 苏州思必驰信息科技有限公司 一种声学模型的训练方法、装置以及计算机可读存储介质
CN112398701A (zh) * 2021-01-18 2021-02-23 南京纳新信息科技有限公司 一种基于互联网应用的智能语音识别系统
CN112882481A (zh) * 2021-04-28 2021-06-01 北京邮电大学 一种基于slam的移动式多模态交互导览机器人系统
CN113763046A (zh) * 2021-09-07 2021-12-07 四川易海天科技有限公司 一种基于大数据分析的移动互联网车载智能投放系统

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US10917758B1 (en) Voice-based messaging
CN111210821A (zh) 一种基于互联网应用的智能语音识别系统
WO2017076222A1 (zh) 语音识别方法及装置
CN110827805B (zh) 语音识别模型训练方法、语音识别方法和装置
CN111344780A (zh) 基于上下文的设备仲裁
CN110047481B (zh) 用于语音识别的方法和装置
CN112037774B (zh) 用于关键短语识别的系统和方法
US20140379334A1 (en) Natural language understanding automatic speech recognition post processing
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
US11676582B2 (en) Detecting conversations with computing devices
KR20230107860A (ko) 실제 노이즈를 사용한 음성 개인화 및 연합 트레이닝
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
JP2023511091A (ja) 自動音声認識のための英数字列のバイアス付加
US20130007035A1 (en) Systems and methods for cross-lingual audio search
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN110809796B (zh) 具有解耦唤醒短语的语音识别系统和方法
TWI731921B (zh) 語音識別方法及裝置
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
Ou et al. Application of keywords speech recognition in agricultural voice information system
Woollacott et al. Benchmarking speech technologies
CN114078478B (zh) 语音交互的方法、装置、电子设备及存储介质
WO2021161856A1 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: He Guotao

Inventor after: Si Yujing

Inventor before: He Guotao

Inventor before: Si Yujing

Inventor before: Ma Chenglong

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200529