CN108231065A - 多语者语音识别校正系统 - Google Patents

多语者语音识别校正系统 Download PDF

Info

Publication number
CN108231065A
CN108231065A CN201711307751.8A CN201711307751A CN108231065A CN 108231065 A CN108231065 A CN 108231065A CN 201711307751 A CN201711307751 A CN 201711307751A CN 108231065 A CN108231065 A CN 108231065A
Authority
CN
China
Prior art keywords
text
speech recognition
speaker
voice
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711307751.8A
Other languages
English (en)
Inventor
安文学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Take A Quick Record Of Co
Original Assignee
Take A Quick Record Of Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Take A Quick Record Of Co filed Critical Take A Quick Record Of Co
Publication of CN108231065A publication Critical patent/CN108231065A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及多语者语音识别校正系统,多语者语音识别校正系统用于在针对多个说话者的语音识别期间以简单方法确定话语的说话者并容易地校正语音识别文本。多语者语音识别校正系统包括:语音信号检测器,配置成当从各自被提供给多个说话者中的相应的一个的多个麦克风接收到多个语音信号时,检测从每个语音信号的输入开始的时间点到语音信号停止的时间点的语音会话;语音识别器,配置成接收包括时间信息和麦克风识别信息的语音会话,并将语音会话中的每个转换成文本;以及文本校正器,配置成从语音信号检测器接收语音会话,按照语音信号的输入开始的时间点的顺序排列并显示语音会话,并接收用于校正语音识别文本的信息。

Description

多语者语音识别校正系统
技术领域
本发明涉及语音识别校正系统,并且更具体地,涉及多语者语音识别校正系统,多语者语音识别校正系统用于在针对多个说话者的语音识别期间以简单方法确定话语的说话者并容易地校正语音识别文本。
背景技术
语音识别技术是允许计算机将通过诸如麦克风的声音传感器获取的声学信号转换成单词或句子的技术。
第2008-0037402号韩国公开专利出版物公开了用于语音识别的“用于在移动终端中制作会议记录文件的方法”。
所公开的用于在移动终端中制作会议记录文件的方法包括:配置显示单元以浏览文本文件;配置麦克风单元以外部地接收多个说话者的声音;配置存储单元以存储说话者的声音信息和相应的说话者信息;控制单元,包括声音记录单元、语音分离单元、语音识别单元和文件管理单元,声音记录单元配置成记录输入声音的特定部分,语音分离单元配置成基于频带按照说话者对记录的声音文件进行分离,语音识别单元配置成确定分离的声音文件是否与预先存储的说话者的声音信息匹配,并且当确定分离的声音文件匹配预先存储的声音信息时,基于说话者信息将分离的声音文件转换成文本文件,文件管理单元配置成存储、浏览并传输转换的文本文件;以及配置无线收发单元以将转换的文本文件传输到另一用户,其中控制单元控制显示单元以基于说话者信息分类的多个说话者之间的时序对话信息的形式显示转换的文本文件。
然而,这种在移动终端中制作会议记录文件的方法具有这样的问题,即,通过用于基于语音文件的频带来分离说话者的复杂算法来识别说话者。
为了解决以上问题,第2014-0077514号韩国公开专利出版物公开了能够利用简单方法识别多个说话者的“会议记录管理装置”。
公开的会议记录管理装置包括:说话者识别单元,配置成从自多个麦克风输入到说话者识别单元的声音信号中识别说话者,其中根据每个麦克风的音量设置,将从每个麦克风输入的声音信号的音量调整并归一化成参考音量,并且根据归一化的声音信号来识别说话者;声音单一处理单元,配置成存储由说话者识别单元识别的说话者的声音信号;会议记录处理单元,配置成生成会议记录,将从由说话者识别单元识别的说话者的声音信号识别的话语转换成文本并将所述文本记录在会议记录中;以及会议记录存储单元,配置成存储由会议记录处理单元生成的会议记录。
即,以上相关领域公开了会议记录管理装置,其可以利用为多个说话者中的每个说话者提供麦克风的简单方法来识别说话者。
同时,通过具有语音识别引擎的语音识别公司来执行语音识别。语音识别引擎基于向其输入的语音的时间量来计算成本。
在此情况下,当通过多个麦克风输入的所有话语都通过麦克风传输时,如以上描述的会议记录管理装置中,出现的问题在于,除了引起用于语音识别的成本增加之外还要引起进行大量数据进行数据交换。
发明内容
技术问题
因此,本发明旨在提供能够以简单方法确定话语的说话者的同时以低成本对多个说话者执行语音识别的多语者语音识别校正系统。
此外,本发明还旨在提供能够在对多个说话者的语音识别期间容易地校正语音识别文本的多语者语音识别校正系统。
技术方案
本发明的一个方面提供了多语者语音识别校正系统,所述多语者语音识别校正系统包括:语音信号检测器,配置成当从各自被提供到相应的多个说话者中的一个的多个麦克风接收到多个语音信号时,检测从每个语音信号的输入开始的时间点到语音信号的输入停止的时间点的语音会话;语音识别器,配置成接收包括时间信息和麦克风识别信息的语音会话,并将语音会话中的每个转换成文本;以及文本校正器,配置成从语音信号检测器接收语音会话,按照语音信号的输入开始的时间点的顺序排列并显示语音会话,并接收用于校正语音识别文本的信息。
语音会话可包括时间信息和麦克风识别信息。
文本校正器可接收用于改变麦克风识别信息的说话者信息,并且根据时间来排列并显示说话者信息和语音识别文本的片段。
多语者语音识别校正系统还可包括语音合并器,语音合并器配置成从语音信号检测器接收语音会话,并将语音会话按照语音信号的输入开始的时间点的顺序合并。
文本校正器可将由语音合并器合并的语音与语音识别文本一起输出。
文本校正器可输出通过拍摄多个说话者中的每个而获得的图像,并显示用于识别图像中的每个说话者的说话者标签。
文本校正器可包括实时输入模式、校正模式和说话者指定播放模式,在实时输入模式中,显示语音识别文本,并且突出显示与所显示的文本的说话者信息匹配的说话者标签以用于识别,在校正模式中,当输入用于校正语音识别文本的信息时,突出显示与待校正的文本的说话者信息匹配的说话者标签以用于识别,在说话者指定播放模式中,当针对每个说话者标签输入选择信号时,根据时间来输出与所选择的说话者标签匹配的说话者的语音识别文本或语音会话的话语。
文本校正器可在接收到用于校正语音识别文本的信息时暂停文本的显示,并且当校正完成时,文本校正器可通过以预定时间量返回到过去的时间点来恢复文本的显示。
文本校正器可通过确定从语音识别器接收的文本是否具有结尾来显示标点符号。
文本校正器可预先将与麦克风识别信息的每个片段对应的说话者的特征信息传输到语音识别器,并且语音识别器可将校正的文本传输到文本校正器,其中文本通过应用从文本校正器接收的特征信息进行校正。
特征信息可包括方言、外语词、感叹词或填充词,并且语音识别器可将方言转换成标准语言,将外语词转换成本地词,或去除作为说话者的习惯的感叹词或填充词,并且将所述语音识别器的结果传输到文本校正器。
多语者语音识别校正系统还可包括修订器,修订器配置成向多个说话者中的每个显示通过语音识别器获得的语音识别结果和通过文本校正器获得的校正结果。
修订器可接收用于校正的信息或修订完成信号,并将所述信号传输到文本校正器。
有益效果
根据本发明,当语音信号从各自被提供到多个说话者中的相应的一个的多个麦克风输入到多语者语音识别系统时,多语者语音识别校正系统可检测从每个语音信号的输入开始的时间点到语音信号的输入停止的时间点的语音会话,并且语音识别器可仅将检测的语音会话转换成文本,从而可通过简单方法识别话语的说话者,并且可以以低成本进行语音识别。
此外,在根据本发明的实施方式的多语者语音识别校正系统中,校正语音识别文本的文本校正器输出由说话者发出的话语以及语音识别文本,使得校正者可以在清楚地识别说话者的话语的同时校正文本。
附图说明
图1是示出根据本发明的一个实施方式的多语者语音识别校正系统的配置的框图。
图2是用于描述根据本发明的一个实施方式的语音信号检测器的语音信号检测的图。
图3是示出根据本发明的一个实施方式的语音合并器的语音合并过程的示意图。
图4是示出根据本发明的一个实施方式的在修订器上显示的画面的示例的图。
图5是示出根据本发明的一个实施方式的文本校正器的配置的框图。
图6至图8是显示根据本发明的一个实施方式的文本校正器的每个模式的图。
具体实施方式
在以下描述中,将省略众所周知的功能或结构的详细说明,因为它们将使本发明在不必要的细节上不清楚。
应该理解的是,说明书和所附权利要求中使用的术语不应被理解为限于它们的一般和词典含义,而是要基于允许发明人适当地定义术语以得到最佳解释的原则、基于对应于本发明的技术方面的含义和构思进行理解。因此,本文提出的描述仅为优选的示例,仅用于说明性的目的并且不旨在限制本发明的范围,并且因此,应该理解的是,在不偏离本发明的精神和范围的情况下,可以对本发明做出其他等效和修改。
在下文中,将详细描述本发明的示例性实施方式。
图1是示出根据本发明的一个实施方式的多语者语音识别校正系统的配置的框图,并且图2是用于描述根据本发明的一个实施方式的语音信号检测器的语音信号检测的图。
参照图1和图2,根据本发明的一个实施方式的多语者语音识别校正系统600包括语音信号检测器100、语音识别器200和文本校正器300。
语音信号检测器100从多个麦克风1中的每个麦克风接收语音信号。在此情况下,可将多个麦克风1提供给多个说话者。例如,可将麦克风1提供给说话者1,并且可将麦克风2提供给说话者2。即,为每个说话者提供多个麦克风1中的一个麦克风,使得可在不需要用于识别说话者的算法的情况下通过区分从麦克风输入到语音信号检测器100的语音信号来识别说话者。
此外,当语音信号检测器100从麦克风1接收语音信号时,语音信号检测器100检测从相应语音信号的输入开始的时间点到语音信号的输入停止的时间点的每段语音会话。即,语音信号检测器100将从麦克风1中的每个麦克风输入的模拟信号转换成数字信号,并确定以及检测语音信号的输入开始的时间点和语音信号的输入停止的时间点。在此情况下,可根据预定时间间隔来确定语音信号的输入是否停止,并且当在预定时间间隔内未输入语音信号时,可确定相应的语音信号是一个会话。
如上所述,当语音信号检测器100检测语音会话时,语音信号检测器100可包括用于识别语音会话的麦克风的麦克风识别信息和时间信息。语音信号检测器100可将检测的语音会话传输到语音识别器200和文本校正器300。在此情况下,语音信号检测器100可从麦克风1输入的信号中移除未输入语音的时间间隔,并将语音信号的语音基本被输入的时间间隔传输到语音识别器200或文本校正器300。
同时,语音信号检测器100可根据语音识别信号的输入开始的时间点的顺序来合并生成的语音会话,并将合并的语音传输到语音识别器200。例如,当存在从多个麦克风1输入的语音信号重叠的时间点时,语音信号检测器100可根据每个语音信号的输入开始的时间点来确定语音信号的优先级,通过将随后输入的语音信号附接到先前输入的语音信号的末尾来将语音信号合并成单个语音信号的形式,并将单个语音信号传输到语音识别器200。
语音识别器200从语音信号检测器100接收从多个麦克风1输入的多个语音会话,并将所接收的语音会话转换成文本形式。当语音会话被输入时,语音识别器200从语音会话提取语音识别所需的特征向量。在此情况下,特征向量设置为表示语音特征并且对其他因素(即,背景噪声、说话者差异、发音方式等)不敏感。然后,语音识别器200通过将特征向量与存储的词模型比较(即,与每个单词的音素特征或基于音素的声学模型进行比较)来执行用于提取潜在词的模式分类。
此外,语音识别器200以一系列候选词或候选音素的形式对模式分类的结果执行基于句子的检索。在此情况下,语音识别器200基于关于候选词或候选音素的信息通过确定词或音素是否匹配语法结构、整体句子上下文和特定主题来确定最合适词或音素。语音识别器200可将通过以上过程完成的文本传输到文本校正器300。
文本校正器300从语音识别器200接收语音识别文本。在此情况下,文本校正器300可从语音识别器200接收通过识别每段语音会话中的语音而获得的文本的片段,基于包含在语音会话中的时间信息和麦克风识别信息、以语音信号的输入开始的时间点的顺序对文本片段进行排列,并将匹配的麦克风识别信息列入每个文本片段中。
此外,文本校正器300可声学地再现提供有麦克风的多个说话者的图像和由多个说话者发出的话语,并将再现结果提供给校正者。然后,文本校正器300可从校正者接收用于校正语音识别文本的信息并基于接收的信息校正错误识别的文本。
如上所述,当语音信号从提供给多个说话者的多个麦克风1输入时,根据本发明的实施方式的多语者语音识别校正系统600可检测从每个语音信号的输入开始的时间点到语音信号的输入停止的时间点的语音会话,并且语音识别器仅将检测的语音会话转换成文本,并且因此,可通过简单方法来识别话语的说话者,并且可以以低成本进行语音识别。
此外,在根据本发明的实施方式的多语者语音识别校正系统600中,校正语音识别文本的文本校正器300将由说话者发出的话语与语音识别文本一起输出,并且因此校正者可以在清楚地识别说话者的语音的同时校正文本。
同时,多语者语音识别校正系统600还可包括语音合并器400和修订器500,其中,语音合并器400合并由语音信号检测器100检测的语音会话,修订器500向多个说话者中的每个说话者显示由语音识别器200获得的语音识别结果以及由文本校正器300获得的校正结果。
图3是示出根据本发明的一个实施方式的语音合并器的语音合并过程的示意图,以及图4是示出根据本发明的一个实施方式的在修订器上显示的画面的示例的图。
参照图1至图4,语音合并器400可从语音信号检测器100接收语音会话,将语音会话按照语音识别信号的输入开始的时间点的顺序合并,并将合并的语音传输到文本校正器300。例如,当存在从多个麦克风1输入的语音信号重叠的时间点时,语音合并器400可根据每个语音信号的输入开始的时间点来确定语音信号的优先级,并通过将随后输入的语音信号附接到先前输入的语音信号的末尾来将语音信号合并成单个语音信号的形式。
如图3所示,即,当通过麦克风1输入的语音信号在t0处开始且在t1处停止时,从t0到t1的间隔可为一个语音会话。在此时,当通过麦克风2输入另一语音会话(t2到t3),并且同时通过麦克风3输入又一个语音会话(t4到t5)时,可出现重叠的语音区间。
语音合并器400可根据语音信号的输入开始时间点的顺序(即,按照从t0到t1的语音会话、从t4到t5的语音会话以及从t2到t3的语音会话的顺序)来合并此类重叠的语音会话,并将合并的语音传输到文本校正器300。
在此情况下,文本校正器300可将由语音合并器400合并的语音与语音识别文本一起输出。
修订器500可显示通过语音识别器200获得的语音识别结果和通过文本校正器300获得的校正结果。例如,修订器500可配置有诸如显示屏的显示设备和诸如键盘等的输入设备。例如,修订器500可显示语音识别文本并在显示的文本中区别地显示由文本校正器300校正的部分,并且因此说话者可以直接地查看和检查语音识别结果。在此情况下,修订器500可从说话者接收用于校正的信息并直接地校正文本,或可接收修订完成信号并将所述信号传输到文本校正器300。
在下文中,将详细描述根据本发明的一个实施方式的文本校正器。
图5是示出根据本发明的一个实施方式的文本校正器的配置的框图,以及图6至图8是示出根据本发明的一个实施方式的文本校正器的各个模式的图。
参照图5至图8,根据本发明的一个实施方式的文本校正器300包括输入器10、显示器20、存储单元30、语音重现器40、通信器50和控制器60。
输入器10接收诸如号码信息、字符信息等的多种信息,并将用于文本校正器300的多种功能设置和功能控制的输入的信号传输到控制器60。例如,输入器10可为诸如小键盘、鼠标、操纵杆等的输入设备,并且优选地可为能够快速地校正错误识别的单词或句子的速记键盘。输入器10可从校正者接收用于校正语音识别文本的信息。在此情况下,校正者可通过输入器10将用于校正的光标移动到显示器20上的语音识别文本上,并且通过向输入器10输入用于校正的信息(即,校正的词)来校正语音识别文本。
显示器20显示与文本校正器300的操作期间发生的一系列操作状态和操作结果有关的信息。此外,显示器20可显示文本校正器300的菜单和由用户输入的用户数据。这里,显示器20可配置有液晶二极管(LCD)、薄膜晶体管LCD(TFT-LCD)、发光二极管(LED)、有机LED(OLED)、有源矩阵OLED(AMOLED)、视网膜显示器、柔性显示器、三维显示器等。
显示器20可包括第一显示窗21、第二显示窗22、第三显示窗23、第四显示窗24、第五显示窗25和第六显示窗26。
第一显示窗21可显示佩戴麦克风的多个说话者的图像。在此情况下,第一显示窗21可显示说话者标签21a来识别图像中正在发言的说话者是谁。说话者标签21a可在说话者的头部上方或在能够识别说话者的位置处显示。
第二显示窗22可显示实时语音识别文本,并且第三显示窗23可根据时间来显示第二显示窗22上的实时语音识别文本的说话者信息和语音识别文本。
第三显示窗23可根据时间来显示第二显示窗22的实时语音识别文本以及说话者信息,并且第三显示窗23可包括检查CHK列以标记由校正者校正的文本。
第四显示窗24可针对每个说话者将显示在第三显示窗23上的文本片段进行分类和显示。
第五显示窗25可以以信号的形式显示来自上述语音合并器400的合并的语音,从而支持校正者来通过输入器10指定预期的语音位置。
第六显示窗26可显示能够对第一显示窗和第五显示窗25上显示的图像和话语进行控制的多种菜单。例如,第六显示窗26可包括诸如回放(BTW)、快进(FF)、录音(Rec)等的菜单。
执行文本校正器300的功能所需的应用程序存储在存储单元30中。在此情况下,当响应于用户的请求而激活每个功能时,存储单元30在控制器60的控制下执行相应的应用程序并提供相关的功能。存储单元30可存储用于实现每个模式(即,实时输入模式、校正模式和说话者指定播放模式)的程序。此外,存储单元30可存储自动文本数据库(DB)以便于校正者进行校正。此外,存储单元30可存储包括方言、外语词、感叹词或填充词的特征信息DB。
语音重现器40可在控制器60的控制下从语音信号检测器或语音合并器接收并重现语音会话,从而使得用户可以听到语音。例如,语音重现器40可包括用于听觉输出的扬声器。
通信器50可包括用于在控制器60的控制下使用多种通信方案进行数据传输的通信接口,并且通信器50可接收从语音信号检测器传输的语音会话或从语音识别器传输的语音识别文本。此外,通信器50可从修订器接收修订的文本。
控制器60可从语音识别器接收语音识别文本片段,并且按照语音信号的输入开始的时间点的顺序将文本片段排列并显示在第二显示窗22中。
控制器60可包括实时输入模式、校正模式和说话者指定播放模式,在实时输入模式中,显示语音识别文本,并且突出显示与所显示的文本的说话者信息匹配的说话者标签以用于识别,在校正模式中,当输入用于校正语音识别文本的信息时,突出显示与待校正的文本的说话者信息匹配的说话者标签以用于识别,在说话者指定播放模式中,当输入针对每个说话者标签的选择信号时,根据时间输出与所选择的说话者标签匹配的说话者的语音识别文本或语音会话的话语。
在实时输入模式中,控制器60可在第二显示窗22中显示来自实时语音识别器的语音识别文本,并可在第一显示窗21中显示多个说话者的图像。在此模式中,可区别地显示与由语音重现器40重现的语音匹配的说话者标签21a。例如,控制器60可改变匹配的说话者标签21a的颜色或形状,使得校正者可以分辨说话者标签21a。此外,控制器60可显示对应于第二显示窗22中的实时语音识别文本的说话者信息的说话者标签21a,使得说话者标签21a可以被识别。也就是说,控制器60可执行控制使得在实时语音识别文本被提供到第二显示窗22的同时通过语音重现器40重现相应的语音会话的语音,并且控制器60可执行控制使得匹配的说话者标签21a在第一显示窗21中突出显示。同时,控制器60可将包含在来自语音识别器的经转换文本中的麦克风信息改变成由校正者通过输入器10输入的匹配的说话者信息,并且可在第二显示窗22中显示改变的信息。如上所述,控制器60可解决当在远处显示图像时仅仅通过嘴型不能够识别说话者的问题。
在校正模式中,用于校正的信息可通过输入器10从校正者接收以校正语音识别文本。即,控制器60可在实时输入模式中通过输入器10从校正者接收用于校正的光标移动,在光标移动之后接收用于校正的信息,并允许校正语音识别文本。在此情况下,控制器60可突出显示与所校正的文本的说话者信息匹配的说话者标签21a,使得校正者可以识别对应于所校正的文本的说话者。在此情况下,当控制器60接收到用于校正语音识别文本的信息时,控制器60可暂停文本的显示,并且当完成校正时,可通过以预定时间量返回到过去的时间点来恢复文本的显示。
在说话者指定播放模式中,可通过输入器10从校正者接收针对每个说话者标签21a的选择信号,并且可根据时间间隔输出与所选择的说话者标签21a对应的说话者的语音识别文本或语音会话的话语。在此情况下,控制器60可执行控制使得在第一显示窗21中显示所选择的说话者的图像、在第二显示窗22中显示所选择的说话者的文本以及在语音重现器40中显示所选择的说话者的话语。
此外,控制器60可通过输入器10接收与麦克风识别信息中的每个片段对应的说话者的特征信息,并将所述信息预先传输至语音识别器。在这里,特征信息可包括方言、外语词、感叹词或填充词。填充词可为说话者自己的习惯,诸如“好(well)”、“所以(so)”、“像(like)”、“我的意思是(I mean)”、“实际上(actually)”和“你知道(you know)”。当语音识别器识别语音并将语音转换成文本时,这样的特征信息可作为线索。控制器60可通过显示器20将存储在存储单元30中的特征信息DB提供给校正者。例如,当校正者在特征信息DB中选择庆尚道(Gyeongsang-do)方言时,控制器60可将用于将庆尚道方言转换成标准语言的信息片段传输至语音识别器。同时,在本发明的实施方式中,控制器60配置成将特征信息传输到语音识别器,并控制语音识别器来执行到标准语言的转换,但是控制器60不限于此。控制器60可配置成直接地校正从语音识别器接收的文本。
此外,控制器60可通过确定从语音识别器接收的文本是否具有结尾来显示标点符号。例如,当位于句子末尾处的诸如“da( )”、“kka( )”的字符的前面存在另一字符时,控制器60可附加对应于所述字符的标点符号,或者当语音会话结束时,控制器60可显示相应的标点符号。
在本说明书中,本发明的示例性实施方式已经被分类成第一示例性实施方式、第二示例性实施方式和第三示例性实施方式且为了简明的目的而进行描述。然而,示例性实施方式的步骤或功能可与另一示例性实施方式的步骤或功能结合以实施本发明的又一示例性实施方式。
附图标记:
1:麦克风 10:输入器
20:显示器 21:第一显示窗
22:第二显示窗 23:第三显示窗
24:第四显示窗 25:第五显示窗
26:第六显示窗 30:存储单元
40:语音重现器 50:通信器
60:控制器
100:语音信号检测器
200:语音识别器 300:文本校正器
400:语音合并器 500:修订器
600:多语者语音校正系统

Claims (4)

1.多语者语音识别校正系统,包括:
语音信号检测器,配置成:当从各自被提供给多个说话者中的相应的一个的多个麦克风接收到多个语音信号时,检测从每个所述语音信号的输入开始的时间点到所述语音信号的输入停止的时间点的语音会话;
语音识别器,配置成:接收包括时间信息和麦克风识别信息的所述语音会话中的每个,并将所述语音会话中的每个转换成文本;
语音合并器,配置成从所述语音信号检测器接收语音会话,并将所述语音会话按照所述语音信号的输入开始的时间点的顺序合并;以及
文本校正器,配置成:从所述语音识别器接收语音识别文本的片段,接收用于改变所述麦克风识别信息的说话者信息,按照所述语音信号的输入开始的时间点的顺序来排列并显示所述说话者信息和所述语音识别文本的片段,输出通过拍摄所述多个说话者中的每个而获得的图像,显示用于识别所述图像中的每个所述说话者的说话者标签,将由所述语音合并器合并的语音与所述语音识别文本一起输出,以及接收用于校正所述语音识别文本的信息,
其中,
所述文本校正器包括实时输入模式、校正模式和说话者指定播放模式,在所述实时输入模式中,显示所述语音识别文本,并且突出显示与所述显示的文本的说话者信息匹配的说话者标签以用于识别,在所述校正模式中,当在所述实时输入模式中输入用于校正所述语音识别文本的信息时,突出显示与待校正的文本的说话者信息匹配的说话者标签以用于识别,在所述说话者指定播放模式中,当针对每个所述说话者标签输入选择信号时,根据时间来输出与所选择的说话者标签匹配的说话者的语音识别文本或语音会话的话语;
所述文本校正器在接收到用于校正所述语音识别文本的所述信息时暂停所述文本的显示,并且当所述校正完成时,所述文本校正器通过以预定时间量返回到过去的时间点来恢复所述文本的显示,
所述文本校正器预先将与所述麦克风识别信息的每个片段对应的说话者的特征信息传输至所述语音识别器,其中,所述特征信息包括方言、外语词、感叹词或填充词,以及
所述语音识别器通过应用从所述文本校正器接收的所述特征信息来将所述方言转换成标准语言、将外语词转换成本地词、或移除作为所述说话者的习惯的感叹词或填充词,并将所述语音识别器的结果传输至所述文本校正器。
2.根据权利要求1所述的多语者语音识别校正系统,其中,所述文本校正器通过确定从所述语音识别器接收的文本是否具有结尾来显示标点符号。
3.根据权利要求1所述的多语者语音识别校正系统,还包括:
修订器,配置成向所述多个说话者中的每个显示通过所述语音识别器获得的语音识别结果和通过所述文本校正器获得的校正结果。
4.根据权利要求3所述的多语者语音识别校正系统,其中,所述修订器接收用于校正的信息或修订完成信号,并将所述信号传输到所述文本校正器。
CN201711307751.8A 2016-12-12 2017-12-11 多语者语音识别校正系统 Pending CN108231065A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20160168758 2016-12-12
KR1020160176567A KR101818980B1 (ko) 2016-12-12 2016-12-22 다중 화자 음성 인식 수정 시스템
KR10-2016-0176567 2016-12-22

Publications (1)

Publication Number Publication Date
CN108231065A true CN108231065A (zh) 2018-06-29

Family

ID=61066712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711307751.8A Pending CN108231065A (zh) 2016-12-12 2017-12-11 多语者语音识别校正系统

Country Status (4)

Country Link
US (1) US10276164B2 (zh)
JP (1) JP6463825B2 (zh)
KR (1) KR101818980B1 (zh)
CN (1) CN108231065A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109600299A (zh) * 2018-11-19 2019-04-09 维沃移动通信有限公司 一种消息发送方法及终端
CN112164396A (zh) * 2020-09-28 2021-01-01 北京百度网讯科技有限公司 语音控制方法、装置、电子设备及存储介质
CN113413613A (zh) * 2021-06-17 2021-09-21 网易(杭州)网络有限公司 一种游戏内语音聊天的优化方法、装置、电子设备及介质
CN113544772A (zh) * 2019-03-15 2021-10-22 富士通株式会社 编辑支持程序、编辑支持方法和编辑支持装置
CN115662437A (zh) * 2022-12-28 2023-01-31 广州市保伦电子有限公司 一种多话筒同时使用场景下的语音转写方法
US11763242B2 (en) * 2021-12-09 2023-09-19 Z21 Labs, Inc. Automatic evaluation of recorded interactions

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3625791A4 (en) * 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
US10923121B2 (en) * 2017-08-11 2021-02-16 SlackTechnologies, Inc. Method, apparatus, and computer program product for searchable real-time transcribed audio and visual content within a group-based communication system
US10567515B1 (en) * 2017-10-26 2020-02-18 Amazon Technologies, Inc. Speech processing performed with respect to first and second user profiles in a dialog session
KR102460491B1 (ko) * 2017-12-06 2022-10-31 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR102076565B1 (ko) * 2018-10-11 2020-02-12 주식회사 한글과컴퓨터 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
KR102061291B1 (ko) * 2019-04-25 2019-12-31 이봉규 5g 통신 기반 스마트 회의 시스템 및 로보틱 처리 자동화를 통한 회의 지원 방법
JP2020184007A (ja) * 2019-05-07 2020-11-12 株式会社チェンジ 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム
JP7314635B2 (ja) * 2019-06-13 2023-07-26 株式会社リコー 表示端末、共用システム、表示制御方法およびプログラム
KR102147811B1 (ko) 2020-01-14 2020-08-25 김승모 회의장 발언자 음성인식 및 문자정보변환시스템
CN111161711B (zh) * 2020-04-01 2020-07-03 支付宝(杭州)信息技术有限公司 对流式语音识别文本进行断句的方法及装置
JP2021177598A (ja) 2020-05-08 2021-11-11 シャープ株式会社 音声処理システム、音声処理方法、及び音声処理プログラム
EP3951775A4 (en) * 2020-06-16 2022-08-10 Minds Lab Inc. PROCEDURE FOR GENERATION OF SPEAKER MARKED TEXT
CN112201275B (zh) * 2020-10-09 2024-05-07 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
US11830496B2 (en) * 2020-12-01 2023-11-28 Microsoft Technology Licensing, Llc Generating and providing inclusivity data insights for evaluating participants in a communication
US20230351123A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Providing multistream machine translation during virtual conferences
CN115376490A (zh) * 2022-08-19 2022-11-22 北京字跳网络技术有限公司 一种语音识别方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP5030868B2 (ja) * 2008-06-10 2012-09-19 株式会社日立製作所 会議音声録音システム
CN102771082A (zh) * 2010-01-20 2012-11-07 微软公司 具有混合能力的设备和接口之间的通信会话
WO2013176366A1 (en) * 2012-05-21 2013-11-28 Lg Electronics Inc. Method and electronic device for easy search during voice record
CN104246750A (zh) * 2012-03-30 2014-12-24 Jpal有限公司 抄录语音
CN104731767A (zh) * 2013-12-20 2015-06-24 株式会社东芝 交流支援装置以及交流支援方法
CN105429851A (zh) * 2015-11-10 2016-03-23 河海大学 一种基于即时通信的多人协同录音系统及识别方法
JP2016062196A (ja) * 2014-09-16 2016-04-25 株式会社東芝 会議情報蓄積装置、方法およびプログラム
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN105810207A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
KR20160108874A (ko) * 2015-03-09 2016-09-21 주식회사셀바스에이아이 대화록 자동 생성 방법 및 장치

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US5913196A (en) * 1997-11-17 1999-06-15 Talmor; Rita System and method for establishing identity of a speaker
US6064963A (en) * 1997-12-17 2000-05-16 Opus Telecom, L.L.C. Automatic key word or phrase speech recognition for the corrections industry
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
JP2005164656A (ja) * 2003-11-28 2005-06-23 Mitsubishi Electric Corp 音声認識装置及び音声認識プログラム
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2006301223A (ja) * 2005-04-20 2006-11-02 Ascii Solutions Inc 音声認識システム及び音声認識プログラム
CA2609247C (en) * 2005-05-24 2015-10-13 Loquendo S.P.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech
KR101328928B1 (ko) 2006-10-26 2013-11-14 엘지전자 주식회사 이동통신 단말기의 회의록 작성 방법
JP2009288567A (ja) * 2008-05-29 2009-12-10 Ricoh Co Ltd 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
US8566088B2 (en) 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
US8606574B2 (en) * 2009-03-31 2013-12-10 Nec Corporation Speech recognition processing system and speech recognition processing method
US8209174B2 (en) * 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
JP2013073323A (ja) * 2011-09-27 2013-04-22 Nec Commun Syst Ltd 会議データの統合管理方法および装置
US8849666B2 (en) * 2012-02-23 2014-09-30 International Business Machines Corporation Conference call service with speech processing for heavily accented speakers
KR20140077514A (ko) 2012-12-14 2014-06-24 박종봉 회의록 관리장치
KR20150089168A (ko) 2014-01-27 2015-08-05 최재용 인공지능을 활용한 언어분석 방법 및 시스템
KR20160035884A (ko) 2014-09-24 2016-04-01 삼성전자주식회사 회의 진행 장치 및 회의 진행 방법

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP5030868B2 (ja) * 2008-06-10 2012-09-19 株式会社日立製作所 会議音声録音システム
CN102771082A (zh) * 2010-01-20 2012-11-07 微软公司 具有混合能力的设备和接口之间的通信会话
CN104246750A (zh) * 2012-03-30 2014-12-24 Jpal有限公司 抄录语音
WO2013176366A1 (en) * 2012-05-21 2013-11-28 Lg Electronics Inc. Method and electronic device for easy search during voice record
CN104731767A (zh) * 2013-12-20 2015-06-24 株式会社东芝 交流支援装置以及交流支援方法
JP2016062196A (ja) * 2014-09-16 2016-04-25 株式会社東芝 会議情報蓄積装置、方法およびプログラム
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN105810207A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
KR20160108874A (ko) * 2015-03-09 2016-09-21 주식회사셀바스에이아이 대화록 자동 생성 방법 및 장치
CN105429851A (zh) * 2015-11-10 2016-03-23 河海大学 一种基于即时通信的多人协同录音系统及识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHU LIU等: ""Speaker Segmentation and Adaptation for Speech Recognition on Multiple-Speaker Audio Conference Data"", 《2007 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 *
刘大鹏: ""会话语音中说话人识别的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109600299A (zh) * 2018-11-19 2019-04-09 维沃移动通信有限公司 一种消息发送方法及终端
CN113544772A (zh) * 2019-03-15 2021-10-22 富士通株式会社 编辑支持程序、编辑支持方法和编辑支持装置
CN112164396A (zh) * 2020-09-28 2021-01-01 北京百度网讯科技有限公司 语音控制方法、装置、电子设备及存储介质
CN113413613A (zh) * 2021-06-17 2021-09-21 网易(杭州)网络有限公司 一种游戏内语音聊天的优化方法、装置、电子设备及介质
US11763242B2 (en) * 2021-12-09 2023-09-19 Z21 Labs, Inc. Automatic evaluation of recorded interactions
CN115662437A (zh) * 2022-12-28 2023-01-31 广州市保伦电子有限公司 一种多话筒同时使用场景下的语音转写方法
CN115662437B (zh) * 2022-12-28 2023-04-18 广东保伦电子股份有限公司 一种多话筒同时使用场景下的语音转写方法

Also Published As

Publication number Publication date
KR101818980B1 (ko) 2018-01-16
JP6463825B2 (ja) 2019-02-06
JP2018106148A (ja) 2018-07-05
US20180182396A1 (en) 2018-06-28
US10276164B2 (en) 2019-04-30

Similar Documents

Publication Publication Date Title
CN108231065A (zh) 多语者语音识别校正系统
EP3469592B1 (en) Emotional text-to-speech learning system
CN105229725B (zh) 多语言深神经网络
CN106534548B (zh) 语音纠错方法和装置
CN110288077A (zh) 一种基于人工智能的合成说话表情的方法和相关装置
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和系统
JP5756555B1 (ja) 発話評価装置、発話評価方法及びプログラム
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
CN105426362A (zh) 语音翻译装置、方法及程序
CN110740275B (zh) 一种非线性编辑系统
CN110047481A (zh) 用于语音识别的方法和装置
US20140028780A1 (en) Producing content to provide a conversational video experience
CN107909995B (zh) 语音交互方法和装置
CN110136721A (zh) 一种评分生成方法、装置、存储介质及电子设备
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN112837401A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN111653265A (zh) 语音合成方法、装置、存储介质和电子设备
US20220059116A1 (en) Methods and systems for computer-generated visualization of speech
CN112036174B (zh) 一种标点标注方法及装置
CN110298150B (zh) 一种基于语音识别的身份验证方法及系统
CN110890095A (zh) 语音检测方法、推荐方法、装置、存储介质和电子设备
US20240005914A1 (en) Generation of a map for recorded communications
KR20060087821A (ko) 모국어 습득과정에 기초하는 언어 학습과정에서의언어능력 평가시스템 및 그 평가방법
CN116129868A (zh) 一种结构化画本的生成方法和生成系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180629