CN107342080B - 一种会议现场同步速记的系统和方法 - Google Patents

一种会议现场同步速记的系统和方法 Download PDF

Info

Publication number
CN107342080B
CN107342080B CN201710538599.8A CN201710538599A CN107342080B CN 107342080 B CN107342080 B CN 107342080B CN 201710538599 A CN201710538599 A CN 201710538599A CN 107342080 B CN107342080 B CN 107342080B
Authority
CN
China
Prior art keywords
module
grammar
voice
server
shorthand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710538599.8A
Other languages
English (en)
Other versions
CN107342080A (zh
Inventor
卢捷
柯登峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Chuangkemao Network Technology Co ltd
Original Assignee
Xiamen Chuangkemao Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Chuangkemao Network Technology Co ltd filed Critical Xiamen Chuangkemao Network Technology Co ltd
Priority to CN201710538599.8A priority Critical patent/CN107342080B/zh
Publication of CN107342080A publication Critical patent/CN107342080A/zh
Application granted granted Critical
Publication of CN107342080B publication Critical patent/CN107342080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种会议现场同步速记的系统和方法;系统由终端、服务器和客户端组成;终端包括中文速录机、语音采集模块;中文速录机通过速录机通讯模块和服务器的文字接收模块相连接;语音采集模块通过时间延迟模块和服务器的语音识别解码模块相连接;服务器包括自动分词模块,自动分词模块分别和文法生成模块、潜在语义分析模块、字型到音素模块相连接。方法包括多个步骤。本发明了通用模型对特定领域识别率不高的问题,在速记员人工输入信息的帮助下,语音识别系统错误率相对降低了80%;解决了大型会议需要速记员数量多的问题,并且大大提高了速记员的工作效率,节省了大量人力,更加经济、方便、使用。

Description

一种会议现场同步速记的系统和方法
技术领域
本发明涉及一种同步速记的系统和方法,尤其涉及一种会议现场同步速记的系统和方法。
背景技术
由于一些重要会议、重要发言需要进行现场速记,使人们一直在培养专业的速记人员以及开发相关的速记系统或设备。速记员由于工作量的限制,在速记过程中往往会漏听或错记一些关键话语,导致速记内容的不完整或者存在记录错误等问题,有时有些大型会议需要大量的速记人员,很难找到合适且数量众多的速记人员。此外,目前还没有一款能配合速记人员提供速记速度且错误率较低的速记系统或方法。
因此需要一款能并且提高速记员的工作效率、错误率较低且能节省了大量人力,方便、使用的会议现场同步速记的系统和方法。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种会议现场同步速记的系统和方法。
为了解决以上技术问题,本发明采用的技术方案是:一种会议现场同步速记的系统,系统由终端、服务器和客户端组成;终端包括中文速录机、语音采集模块;中文速录机通过速录机通讯模块和服务器的文字接收模块相连接;语音采集模块通过时间延迟模块和服务器的语音识别解码模块相连接;服务器包括自动分词模块,自动分词模块分别和文法生成模块、潜在语义分析模块、字型到音素模块相连接;
文法生成模块和大文法模型相连接,大文法模型连接在语音识别解码模块上;潜在语义分析模块通过文法语义映射表连接到大文法模型上,字型到音素模块通过发音词典和语音识别解码模块相连接。
语音识别解码模块连接客户端的语音文字排版输出模块,语音识别解码模块上设置有声学模型和小文法模型。
方法的具体步骤如下:
会场的语音经过语音采集模块采集后,形成16K16比特单通道PCM格式录音,在时间延迟模块中缓存至少30秒钟,后经过时间延迟模块检测并分成若干句话,送到语音识别解码模块进行语音识别,语音识别解码模块采用基于动态有限状态机网络的集束搜索算法,需要声学模型、发音词典、大文法模型,小文法模型作为输入,最终的识别结果含有每个词的时间信息和置信度信息,由语音文字排版输出模块用不同颜色显示出来,速记员速录的文字信息总是比语音信息提前30秒以上到达服务器的语音识别解码模块并被语音识别解码模块所利用;
速记员使用终端的中文速录机,在中文速录机中进行文字录入,速录机通讯模块实时监控中文速录机并通过USB端口取出速记员录入的文字信息送到服务器,由服务器中的文字接收模块接收,随后送给自动分词模块进行分词,分词结果如果出现词典中没有的词,送到字型到音素模块自动注音,将单词和注音结果添加到发音词典中,所有的分词结果在潜在语义分析模块中进行语义分析,分析出排名前十名的潜在语义,并从文法语义映射表中查出对应潜在语义的文法,在大文法模型修改对应潜在语义的文法的对数概率,排名第一名的文法的对数概率值增加2.0,排名第二名的文法的对数概率值增加1.9,排名第三名的文法的对数概率值增加1.8,以此类推;
在文法生成模块中将自动分词结果中出现的二元文法、三元文法、四元文法、五元文法全部赋予对数概率-0.1,赋予回退对数概率0,插入到大文法模型中,发音词典和大文法模型随着速记员的录入文字改变而改变,从而影响语音识别解码模块的识别结果;
最终由语音识别解码模块输出最终的语音识别信息到语音文字排版输出模块中进行排版。
声学模型采用三音子状态作为输出,采用梅尔频率倒谱系数或者梅尔频率子带对数能量谱作为输入的深度神经网络,该网络可以为前馈型网络、循环网络或双向循环网络。
发音词典采用多元文法模型并表示成两个加权有限状态机网络的动态组合。
发音词典采用声母和带调的韵母为汉语的词汇注音,采用国际音标为外来语言注音;所述语音的解码算法采用基于动态构建有限状态机网络的集束搜索算法。
本发明实现了速记员不需要每一句话都完整的记录下来,只需要记录核心信息或关键信息,漏记的部分由语音识别系统自动补足及校正;同时本发明避免了通用模型对特定领域识别率不高的问题,在速记员人工输入信息的帮助下,语音识别系统错误率相对降低了80%;解决了大型会议需要速记员数量多的问题,本发明的使用使大型会议所需速记员数量减少一半,并且大大提高了速记员的工作效率,节省了大量人力,更加经济、方便、使用。
附图说明
图1为本发明系统的组成框图及工作流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,会议现场同步速记的系统,由终端、服务器和客户端组成。
终端包括中文速录机S5、语音采集模块S1;中文速录机S5通过速录机通讯模块S6和服务器的文字接收模块S7相连接;语音采集模块S1通过时间延迟模块S2和服务器的语音识别解码模块S3相连接;服务器包括自动分词模块S8,自动分词模块S8分别和文法生成模块S14、潜在语义分析模块S11、字型到音素模块S9相连接;文法生成模块S14和大文法模型S13相连接,大文法模型S13连接在语音识别解码模块S3上;潜在语义分析模块S11通过文法语义映射表S12连接到大文法模型S13上,字型到音素模块S9通过发音词典S10和语音识别解码模块S3相连接。语音识别解码模块S3连接客户端的语音文字排版输出模块S4。语音识别解码模块S3上设置有声学模型S16和小文法模型S15。
如图1所示,会场的语音经过语音采集模块S1采集后,形成16K16比特单通道PCM格式录音,在时间延迟模块S2中缓存至少30秒钟,后经过时间延迟模块S2检测并分成若干句话,送到语音识别解码模块S3进行语音识别,语音识别解码模块S3采用基于动态有限状态机网络的集束搜索算法,需要声学模型S16、发音词典S10、大文法模型S13,小文法模型S15作为输入,最终的识别结果含有每个词的时间信息和置信度信息,由语音文字排版输出模块S4用不同颜色显示出来(置信度高的单词采用黑色表示,置信度低的单词采用灰色表示),速记员速录的文字信息总是比语音信息提前30秒以上到达服务器的语音识别解码模块S3并被语音识别解码模块S3所利用,语音识别解码模块S3具备语音识别的性能,并最终获得错误率极低的识别结果;速记员使用终端的中文速录机S5,在中文速录机S5中进行文字录入(中文速录机S5可以使用亚伟中文速录机YW-III),速录机通讯模块S6实时监控中文速录机S5并通过USB端口取出速记员录入的文字信息送到服务器,由服务器中的文字接收模块S7接收,随后送给自动分词模块S8进行分词,分词结果如果出现词典中没有的词,送到字型到音素模块(G2P)S9自动注音,将单词和注音结果添加到发音词典S10中,所有的分词结果在潜在语义分析模块S11中进行语义分析,分析出排名前十名的潜在语义,并从文法语义映射表S12中查出对应潜在语义的文法,在大文法模型S13修改对应潜在语义的文法的对数概率,排名第一名的文法的对数概率值增加2.0,排名第二名的文法的对数概率值增加1.9,排名第三名的文法的对数概率值增加1.8,以此类推,在文法生成模块S14中将自动分词结果中出现的二元文法、三元文法、四元文法、五元文法全部赋予对数概率-0.1,赋予回退对数概率0,插入到大文法模型中,发音词典S10和大文法模型S13随着速记员的录入文字改变而改变,从而影响语音识别解码模块S3的识别结果;
最终由语音识别解码模块S3输出最终的语音识别信息到语音文字排版输出模块S4中进行排版。
声学模型S16采用三音子状态(senone)作为输出,采用梅尔频率倒谱系数(MFCC)或者梅尔频率子带对数能量谱(FBANK)作为输入的深度神经网络,该网络可以为前馈型网络、循环网络或双向循环网络,典型的如DBN-DNN、Deep CNN、Deep LSTM或Deep BLSTM。
发音词典S10采用多元文法模型(N-gram)并表示成两个加权有限状态机网络(WFST)的动态组合(Composition),其中小文法模型S15记为HCLG网络,大文法模型S13记为G1网络。HCLG网络采用小三元文法模型G和发音词典L和上下文关系C以及状态映射关系H组合生成并采用minimize和determinize进行网络约简,并用push进行概率往前推送。G1网络采用加权有限状态机网络表示的五元文法模型并且实现了动态添加文法、动态添加词汇的功能。发音词典采用声母和带调的韵母为汉语的词汇注音,采用国际音标为英语等外来语言注音。语音解码算法采用基于动态构建(On-the-fly Composition)有限状态机网络的集束搜索算法。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (6)

1.一种会议现场同步速记的系统,其特征在于:所述系统由终端、服务器和客户端组成;所述终端包括中文速录机(S5)、语音采集模块(S1);中文速录机(S5)通过速录机通讯模块(S6)和服务器的文字接收模块(S7)相连接;语音采集模块(S1)通过时间延迟模块(S2)和服务器的语音识别解码模块(S3)相连接;服务器包括自动分词模块(S8),自动分词模块(S8)分别和文法生成模块(S14)、潜在语义分析模块(S11)、字型到音素模块(S9)相连接;
所述文法生成模块(S14)和大文法模型(S13)相连接,大文法模型(S13)连接在语音识别解码模块(S3)上;潜在语义分析模块(S11)通过文法语义映射表(S12)连接到大文法模型(S13)上,字型到音素模块(S9)通过发音词典(S10)和语音识别解码模块(S3)相连接。
2.根据权利要求1所述的会议现场同步速记的系统,其特征在于:所述语音识别解码模块(S3)连接客户端的语音文字排版输出模块(S4),语音识别解码模块(S3)上设置有声学模型(S16)和小文法模型(S15)。
3.一种会议现场同步速记的方法,其特征在于:所述方法的具体步骤如下:
会场的语音经过语音采集模块(S1)采集后,形成16K16比特单通道PCM格式录音,在时间延迟模块(S2)中缓存至少30秒钟,后经过时间延迟模块(S2)检测并分成若干句话,送到语音识别解码模块(S3)进行语音识别,语音识别解码模块(S3)采用基于动态有限状态机网络的集束搜索算法,需要声学模型(S16)、发音词典(S10)、大文法模型(S13),小文法模型(S15)作为输入,最终的识别结果含有每个词的时间信息和置信度信息,由语音文字排版输出模块(S4)用不同颜色显示出来,速记员速录的文字信息总是比语音信息提前30秒以上到达服务器的语音识别解码模块(S3)并被语音识别解码模块(S3)所利用;
速记员使用终端的中文速录机(S5),在中文速录机(S5)中进行文字录入,速录机通讯模块(S6)实时监控中文速录机(S5)并通过USB端口取出速记员录入的文字信息送到服务器,由服务器中的文字接收模块(S7)接收,随后送给自动分词模块(S8)进行分词,分词结果如果出现词典中没有的词,送到字型到音素模块(S9)自动注音,将单词和注音结果添加到发音词典(S10)中,所有的分词结果在潜在语义分析模块(S11)中进行语义分析,分析出排名前十名的潜在语义,并从文法语义映射表(S12)中查出对应潜在语义的文法,在大文法模型(S13)修改对应潜在语义的文法的对数概率,排名第一名的文法的对数概率值增加2.0,排名第二名的文法的对数概率值增加1.9,排名第三名的文法的对数概率值增加1.8,以此类推;
在文法生成模块(S14)中将自动分词结果中出现的二元文法、三元文法、四元文法、五元文法全部赋予对数概率-0.1,赋予回退对数概率0,插入到大文法模型中,发音词典(S10)和大文法模型(S13)随着速记员的录入文字改变而改变,从而影响语音识别解码模块(S3)的识别结果;
最终由语音识别解码模块(S3)输出最终的语音识别信息到语音文字排版输出模块(S4)中进行排版。
4.根据权利要求3所述的会议现场同步速记的方法,其特征在于:所述声学模型(S16)采用三音子状态作为输出,采用梅尔频率倒谱系数或者梅尔频率子带对数能量谱作为输入的深度神经网络,该网络可以为前馈型网络、循环网络或双向循环网络。
5.根据权利要求3所述的会议现场同步速记的方法,其特征在于:所述发音词典(S10)采用多元文法模型并表示成两个加权有限状态机网络的动态组合。
6.根据权利要求3所述的会议现场同步速记的方法,其特征在于:所述发音词典(S10)采用声母和带调的韵母为汉语的词汇注音,采用国际音标为外来语言注音;所述语音的解码算法采用基于动态构建有限状态机网络的集束搜索算法。
CN201710538599.8A 2017-07-04 2017-07-04 一种会议现场同步速记的系统和方法 Active CN107342080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710538599.8A CN107342080B (zh) 2017-07-04 2017-07-04 一种会议现场同步速记的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710538599.8A CN107342080B (zh) 2017-07-04 2017-07-04 一种会议现场同步速记的系统和方法

Publications (2)

Publication Number Publication Date
CN107342080A CN107342080A (zh) 2017-11-10
CN107342080B true CN107342080B (zh) 2020-07-24

Family

ID=60219426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710538599.8A Active CN107342080B (zh) 2017-07-04 2017-07-04 一种会议现场同步速记的系统和方法

Country Status (1)

Country Link
CN (1) CN107342080B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270098B (zh) * 2021-06-22 2022-05-13 广州小鹏汽车科技有限公司 语音控制方法、车辆、云端和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120101855A (ko) * 2011-03-07 2012-09-17 (주)에이치씨아이랩 연속어 음성인식 결과 교정기 및 음성인식 결과 교정 방법
CN103310790A (zh) * 2012-03-08 2013-09-18 富泰华工业(深圳)有限公司 电子装置及语音识别方法
CN105159870A (zh) * 2015-06-26 2015-12-16 徐信 一种精准完成连续自然语音文本化的处理系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856004B2 (en) * 2011-05-13 2014-10-07 Nuance Communications, Inc. Text processing using natural language understanding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120101855A (ko) * 2011-03-07 2012-09-17 (주)에이치씨아이랩 연속어 음성인식 결과 교정기 및 음성인식 결과 교정 방법
CN103310790A (zh) * 2012-03-08 2013-09-18 富泰华工业(深圳)有限公司 电子装置及语音识别方法
CN105159870A (zh) * 2015-06-26 2015-12-16 徐信 一种精准完成连续自然语音文本化的处理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"PRONUNCIATION MODELING USING A FINITE-STATE TRANSDUCER REPRESENTATION";Timothy J. Hazen.etc;《Speech Communication》;20050630;第46卷(第2期);全文 *
"汉语大词汇量连续语言识别系统研究进展";倪崇嘉等;《中文信息学报》;20090115;第23卷(第1期);全文 *

Also Published As

Publication number Publication date
CN107342080A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN110717031B (zh) 一种智能会议纪要生成方法和系统
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
WO2003010754A1 (fr) Systeme de recherche a entree vocale
CN108538286A (zh) 一种语音识别的方法以及计算机
US20150178274A1 (en) Speech translation apparatus and speech translation method
CN104199825A (zh) 一种信息查询方法和系统
Popescu-Belis et al. Automatic identification of discourse markers in dialogues: An in-depth study of like and well
CN103885924A (zh) 一种领域自适应的公开课字幕自动生成系统及方法
CN110942767A (zh) 一种asr语言模型识别标注与优化方法及其装置
Cardenas et al. Siminchik: A speech corpus for preservation of southern quechua
CN107123419A (zh) Sphinx语速识别中背景降噪的优化方法
CN107342080B (zh) 一种会议现场同步速记的系统和方法
Hillard et al. Impact of automatic comma prediction on POS/name tagging of speech
KR101069534B1 (ko) 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치
Rusko et al. Recent advances in the Slovak dictation system for judicial domain
Håkansson et al. Transfer learning for domain specific automatic speech recognition in Swedish: An end-to-end approach using Mozilla’s DeepSpeech
CN111652005A (zh) 汉语与乌尔都语同步互译系统及方法
Simunec et al. N-gram Based Croatian Language Network
Panaite et al. Towards a Deep Speech model for Romanian language
Tamburini Playing with NeMo for building an automatic speech recogniser for Italian
Whetten et al. Evaluating Automatic Speech Recognition and Natural Language Understanding in an Incremental Setting
Tatarinova et al. Building Test Speech Dataset on Russian Language for Spoken Document Retrieval Task
Steiblé et al. Pronunciation Dictionaries for the Alsatian Dialects to Analyze Spelling and Phonetic Variation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant