CN104464734A - 声音同时处理装置、方法及程序 - Google Patents
声音同时处理装置、方法及程序 Download PDFInfo
- Publication number
- CN104464734A CN104464734A CN201410465639.7A CN201410465639A CN104464734A CN 104464734 A CN104464734 A CN 104464734A CN 201410465639 A CN201410465639 A CN 201410465639A CN 104464734 A CN104464734 A CN 104464734A
- Authority
- CN
- China
- Prior art keywords
- character string
- string
- process unit
- mentioned
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 208
- 238000012545 processing Methods 0.000 title abstract description 21
- 238000003058 natural language processing Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 190
- 238000012360 testing method Methods 0.000 claims description 27
- 238000013519 translation Methods 0.000 claims description 18
- 238000012958 reprocessing Methods 0.000 claims description 17
- 230000002123 temporal effect Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 230000000877 morphologic effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 19
- 241001619937 Hoplerythrinus unitaeniatus Species 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及声音同时处理装置、方法及程序。将发声声音的识别结果分割为适当的处理单位。包括:取得部,取得声音信号;声音识别部,生成声音信号中声音识别处理结束后变换为字符串的声音区间对应的字符串即确定字符串和为后续于确定字符串的声音区间的、处于声音识别处理途中且未确定作为变换结果的字符串的声音区间对应的一个以上的候补字符串;检测部,对分别连接确定字符串和一个以上的候补字符串而成的一个以上的组合字符串,由表示成为自然语言处理中处理单位的开始位置的词素的位置的分割点分割该组合字符串时,在存在在组合字符串的各个中相同的包括于确定字符串的字符串时,将该字符串检测为处理单位字符串;输出部,输出处理单位字符串。
Description
技术领域
本发明的实施方式涉及声音同时处理装置、方法及程序。
背景技术
近年,伴随声音处理技术的提高,应用接收人的发声而工作的各种服务例如声音指令、声音检索及声音对话等的系统。人的发声即口头语言中没有书面语言所包括的标点符号那样的明确的断句(划分)处,为了提供上述服务,必须将接收的发声分割为适于该服务的单位。作为分割为适于服务的处理单位的方法,存在将包括无声区间即停顿的发声分割为处理单位的方法。
发明内容
但是,上述的方法中,由于将因讲话者和/或讲话方式的差异而变化大的停顿用作发声的断句信息,因此有时无法检测适当的处理单位。例如,将以预先确定的长度的停顿长度断句的声音区间中的声音识别结果的字符串分割为处理单位时,事先应提供的适当的停顿长度因讲话者而异,而且,即使是同一讲话者也不一定总是采用一定的停顿长度,因此无法检测出适当的处理单位。
另外,增大停顿长度的阈值时,直到确定处理单位为止的时间增加,因此,对原始发声的后续处理的同步性降低。另一方面,减小停顿长度的阈值时,同步性提高,但是,由于通过停顿而断句的单位增加,因此,检测到零碎的处理单位,后续处理的精度降低。
本发明为解决上述问题而提出,目的是提供可以将发声声音的识别结果分割为适当的处理单位的声音同时处理装置、方法及程序。
本发明的一实施方式的声音同时处理装置包括取得部、声音识别部、检测部和输出部。取得部取得声音信号。声音识别部生成:上述声音信号中的声音识别处理结束后变换为字符串的声音区间所对应的字符串即确定字符串,和为后续于该确定字符串的声音区间的、处于声音识别的处理途中而未确定作为变换结果的字符串的声音区间所对应的一个以上的候补字符串。检测部对于将上述确定字符串和一个以上的上述候补字符串分别连接而成的一个以上的组合字符串,在通过表示成为自然语言处理中的处理单位的开始位置的词素的位置的分割点分割该组合字符串时,在存在在上述组合字符串的各个中相同的、包括于上述确定字符串的字符串的情况下,将该字符串检测为处理单位字符串。输出部输出上述处理单位字符串。
根据上述构成的声音同时处理装置,可以将发声声音的识别结果分割为适当的处理单位。
附图说明
图1是表示第1实施方式的声音同时处理装置的框图。
图2是表示第1实施方式的声音同时处理装置的工作的流程图。
图3是表示识别结果存储部存储的确定字符串和候补字符串的第1例的示图。
图4是表示组合字符串的分割点的检测结果的第1例的示图。
图5是表示第1实施方式中的处理单位存储部存储的处理单位字符串的示图。
图6是表示识别结果存储部存储的确定字符串和候补字符串的第2例的示图。
图7是表示组合字符串的分割点的检测结果的第2例的示图。
图8是表示第2实施方式的声音同时处理装置的框图。
图9是表示第2实施方式的声音同时处理装置的工作的流程图。
图10是表示第2实施方式的处理单位存储部存储的处理单位信息的第1例的示图。
图11是表示再处理单位字符串的分割点的检测结果的示图。
图12是表示处理单位存储部存储的处理单位信息的第2例的示图。
图13是表示处理单位存储部存储的处理单位信息的第3例的示图。
图14是表示再处理单位字符串的分割点的检测结果的示图。
图15是表示更新后的处理单位信息的一例的示图。
具体实施方式
以下,参照附图详细说明本公开的一实施方式的声音同时处理装置、方法及程序。另外,以下的实施方式中,附同一编号的部分进行同样的工作,将重复的说明省略。
(第1实施方式)
参照图1的框图说明第1实施方式的声音同时处理装置。
本实施方式的声音同时处理装置100包括取得部101、声音识别部102、识别结果存储部103、检测部104、处理单位存储部105及输出部106。
取得部101取得讲话者发出的声音作为声音信号。声音信号可以例如通过麦克风集音并将其通过模拟及数字变换器(A/D变换器)处理而获得。另外,也可以将预先在记录介质等录音的声音通过再现器件等读入记录介质并再现而取得为声音信号。
声音识别部102从取得部101接收声音信号,对声音信号进行声音识别处理,将声音信号变换为文本字符串。声音识别处理例如以采用隐马尔可夫模型(Hidden Markov Model:HMM)等的一般方法进行即可,因此这里省略详细说明。另外,声音识别部102生成:声音识别处理结束后变换为字符串的声音区间所对应的字符串即确定字符串;为后续于该确定字符串的声音区间的、处于声音识别的处理途中并且作为变换结果的字符串未确定的声音区间所对应的一个以上的候补字符串。
确定字符串及候补字符串的生成方法生成例如声音信号中的一定的无声期间(停顿)作为断句处即可。即,将比停顿时间性靠前的区间的声音所对应的确定了一个以上的候补的状态下的最大似然的字符串设为确定字符串,将比停顿靠后的区间的声音所对应的一个以上的字符串设为候补字符串即可。以下,将候补字符串的集合称为候补字符串集合。
另外,确定字符串可以仅仅是相对于确定的声音区间的最大似然的字符串,也可以以包括与确定的声音区间对应的其他候补的形式如字符串点阵(lattice)形式生成。同样,候补字符串集合也可以按每个候补字符串区别生成,也可以以字符串点阵形式输出。
另外,作为确定字符串及候补字符串的生成方法的其他例,也可以通过:采用与声音识别处理中的声音相当的字符串候补达到预定单词数的位置来取代停顿、采用字符串候补的生成概率超过一定的阈值的位置来取代停顿,生成确定字符串及候补字符串。
识别结果存储部103从声音识别部102接收确定字符串及一个以上的候补字符串,分别对应地存储。另外,本实施方式中,确定字符串及候补字符串假定是单词信息未附属的明码电文,但是也可以存储按单词断句的系列来作为声音识别部102的声音识别处理结果。
检测部104从识别结果存储部103取得确定字符串及候补字符串集合。检测部104将确定字符串和候补字符串集合所包括的各个候补字符串连接,获得一个以上的组合字符串。检测部104分析各个组合字符串,在可成为后续的自然语言处理的处理单位的开始位置的词素的位置,检测一个以上表示将组合字符串分割为部分字符串的位置的分割点。检测部104在通过分割点分割组合字符串时,在存在在各个组合字符串中相同的、包括于确定字符串的字符串的情况下,将确定字符串所包括的字符串检测为处理单位字符串。另外,各个组合字符串的集合也称为组合字符串集合。
这里,处理单位是指:表示对于与声音同时处理装置100连接的其他器件的工作最佳的字符串,例如,与机器翻译装置连接时是同时并行地译出向机器翻译装置输入的声音而获得最佳的翻译结果那样的翻译单位。另外,在对发声要求高追随性的同声翻译等的声音对话时,作为除了翻译结果的品质之外还以相对于发声的迟延时间为变量而实现最佳口译精度和口译时间的单位,同时并行地将声音作为声音对话的任务而处理的单位与之相当。
另外,检测部104中,例如,可以用带条件的随机域(ConditioningRandom Field,条件随机域)随机地推定成为处理单位的分割点。机器学习中,也可以采用被赋予理想的处理单位的信息的学习数据(语料库)来学习分割点,或者,在未被赋予理想的处理单位的信息的数据中,也可以学习使与本实施方式的声音同时处理装置连接的装置理想地工作的概率最大化的分割点。
机器学习方法除了本实施方式说明的带条件随机域之外,也可以采用HMM、支持向量机(Support Vector Machine:SVM)这样的其他模型来推定分割点,不限于上述的实现方式。另外,除了统计地检测分割点的方法以外,例如,也可以应用基于词素系列中的图形匹配的方法和/或采用语法信息的方法等。
处理单位存储部105从检测部104接收处理单位字符串并存储。
输出部106从识别结果存储部103接收确定字符串及候补字符串、从处理单位存储部105接收处理单位字符串,向外部输出。向外部的输出可以在每次处理单位字符串生成时输出,也可以在积累某种程度的处理单位字符串后汇总输出。另外,也可以包括LCD(Liquid crystal display:液晶显示器)和/或OLED(organic light emitting diode:有机发光二极管)显示器这样的显示器件、和/或打印器件、扬声器等的声音器件、硬盘驱动器等的存储介质的存储器件。
接着,参照图2的流程图说明第1实施方式的声音同时处理装置100的工作。
步骤S201中,声音识别部102对取得部101取得的声音进行声音识别处理,获得确定字符串和候补字符串集合。
步骤S202中,检测部104将确定字符串和候补字符串集合所包括的各个候补字符串连接,生成组合字符串,获得以组合字符串为要素的组合字符串集合。这里,生成与候补字符串的数目对应的组合字符串。
步骤S203中,检测部104在由分割点分割各个组合字符串时,判定是否存在:使得存在在各个组合字符串中相同的、包括于确定字符串的字符串那样的分割点。若有使得存在在各个组合字符串中相同的、包括于确定字符串的字符串那样的分割点,则进入步骤S204,若没有使得存在在各个组合字符串中相同的、包括于确定字符串的字符串那样的分割点,则结束处理。
步骤S204中,处理单位存储部105将确定字符串所包括的字符串存储为处理单位字符串。
步骤S205中,输出部106参照处理单位存储部105,向外部输出未输出的处理单位字符串。以上,第1实施方式的声音同时处理装置100的工作结束。
接着,参照图3到图5说明第1实施方式的声音同时处理装置100的工作的具体例。这里,表示对声音同时处理装置100连接从日语翻译为英语的机器翻译装置的例。
这里,假定下述状况:讲话者连续地发出“千葉市内で(V)ホテルを予約し(V)たいんですが良いホテルを見つけて(V)もらえませんか”的内容,声音同时处理装置100取得该发声。记号(V)表示声音同时处理装置100识别为无声区间(停顿)的位置。
首先,发声为“千葉市内で(V)”时,声音识别部102进行声音识别处理,生成确定字符串和一个以上的候补字符串。参照图3说明识别结果存储部103存储的确定字符串和候补字符串。
在识别结果存储部103,确定字符串301和一个以上的候补字符串302对应地存储。这里,相对于确定字符串301“千葉市内で”,分别对应有候补字符串302“火照るん”、“ホテルの”、“掘っているん”、“補填の”。通过连接确定字符串301和各个候补字符串302,可以获得组合字符串。即,获得“千葉市内で火照るん”、“千葉市内のホテルで”、“千葉市内で掘っているん”、“千葉市内で補填の”作为组合字符串,这4个组合字符串的集合成为组合字符串集合。
接着,检测部104分析各个组合字符串,检测分割点。分割点的检测结果参照图4说明。
图4表示采用带条件随机域向组合字符串401所包括的词素赋予表示分割点对处理单位的候补位置的标签402的例。“B”表示成为处理单位的开始位置的词素的位置,“I”表示处于处理单位的途中的词素的位置。
例如,对于组合字符串401“千葉市内で火照るん”,可以在标签402的“B”的分割点的位置分割为部分字符串,因此,可知可以分割为“千葉市内で”和“火照るん”的字符串。同样,对于组合字符串“千葉市内でホテルの”,可以在标签402“B”的分割点的位置分割为“千葉市内で”和“ホテルの”。
这里,检测部104检测使得存在在各个组合字符串401中相同的、包括于确定字符串的字符串那样的分割点。图4的例中,分割点中,可用标签402“B”分割,使得存在在各个组合字符串401中相同的、包括于确定字符串的字符串。即,由于存在确定字符串即“千葉市内で”,因此将“千葉市内で”检测为处理单位字符串。
图5表示将检测部104获得的处理单位字符串存储在处理单位存储部105的一例。如图5所示,存储处理单位字符串501“千葉市内で”。然后,输出部106向外部输出处理单位字符串“千葉市内で”。
图6表示:接着继续发声,取得部101取得“ホテルを予約し(V)”的发声,通过声音识别部102的处理获得确定字符串和候补字符串集合的处理结果。
这里,假定下述情况:获得确定字符串601“ホテルを予約し”和与确定字符串601对应的一个以上的候补字符串602。如图6所示,作为候补字符串602,获得“たいん”、“退院”、“タイの”、“たインド”。
图7表示:接着,检测部104连接图6所示的确定字符串和各个候补字符串,生成组合字符串,对各个组合字符串检测分割点的结果。
如图7所示,组合字符串701“ホテルの予約をしたいん”,在开头的“ホテル”以外不存在与标签702“B”对应的分割点,因此无法分割为部分字符串。另一方面,组合字符串701“ホテルの予約をし退院”,在开头以外存在与标签702“B”对应的分割点,因此可以分割为“ホテルの予約をし”和“退院”的字符串。另外,关于与候补字符串的开头的字符串部分相符的标签702,字符串“タイの”取得为标签702“B”,字符串“たインド”取得为标签702“I”。
该情况下,在全部的组合字符串701中相同并且以分割点分割的结果包括于确定字符串那样的字符串,即,在各个组合字符串中标签702在“B”处相同的分割点,并不存在。因此不生成新的处理单位字符串,不向处理单位存储部105追加。
采用现有的以发声中的停顿为线索的方法时,“ホテルの予約をし(V)”的发声对应的“ホテルの予約をし”的部分被检测为处理单位,因此,导致将后续的“たいんですがどこに行けば”作为其他处理单位被分开进行处理。这表示将分割的字符串作为机器翻译装置的处理单位时,作为翻译结果,导致分离为“I book a hotel”和“I want,but whereshould I go”,无法正确反映原来的发声所具有的意图。
另一方面,第1实施方式的声音同时处理装置中,分析发声的上下文而检测处理单位,因此,可以抑制无法正确反映原来的发声具有的意图的处理单位的输出。
即,根据第1实施方式,可以将发声声音的识别结果分割为适当的处理单位,例如与机器翻译装置连接时可以按处理单位字符串进行适当的翻译,因此,即使在发声途中也可以追随并渐进地输出。
(第2实施方式)
第2实施方式中,与第1实施方式的不同点在于:根据发声的状况,更新处理单位字符串相关的信息。这样,即使因后续的声音的识别结果导致适当的处理单位改变时,也可以输出正确反映原来的发声具有的意图的处理单位。
参照图8说明第2实施方式的声音同时处理装置的框图。
第2实施方式的声音同时处理装置800包括:取得部101、识别结果存储部103、检测部104、输出部106、声音识别部801、处理单位存储部802及更新部803。
取得部101、识别结果存储部103、检测部104及输出部106,与第1实施方式进行同样的工作,因此这里的说明省略。
声音识别部801进行与第1实施方式的声音识别部102同样的处理,但是,不同点在于:取得声音发出的时刻相关的时间信息和发出声音的讲话者的讲话速度(以下称为语速)。
处理单位存储部802进行与第1实施方式的处理单位存储部105同样的处理,但是,不同点在于:将处理单位字符串和检测处理单位字符串的区间所对应的声音的时间信息对应地作为处理单位信息而存储。
更新部803参照处理单位存储部802存储的处理单位信息,在新的处理单位信息向处理单位存储部802追加了时,判定是否是:时间上先于追加的处理单位信息的、与预先设定的时间内连续发声的声音区间对应的处理单位信息。该判定也可以从声音识别部801接收时间信息及语速的至少任一个,参照接收的信息进行判定。
而且,更新部803,在存在先于追加的处理单位信息的、与预先设定的时间内连续发声的声音区间对应的处理单位信息时,将对应的处理单位信息所包括的处理单位字符串按时间序列顺序连接,生成再处理单位字符串。而且,再处理单位字符串的分割点和处理单位存储部802存储的处理单位字符串的分割点不同时,将连接的以前的处理单位信息所包括的处理单位字符串和时间信息置换为再处理单位字符串和与再处理单位字符串对应的时间信息。
确定连续发声的声音区间时所采用的阈值,在参照例如时间信息时,也可以根据在先的处理单位信息对应的声音的结束时刻和后续的处理单位信息对应的声音的开始时刻的差来设定。另外,也可以根据成为评价对象的连续的处理单位信息的时间长度的和来设定。
另外,参照语速时,可以根据一个以上的讲话者的语速的统计值来确定停顿的长度的阈值,也可以预先取得每个讲话者的语速,按每个讲话者设定阈值。另外,阈值可以是事先设定的值,也可以根据发声的状况而动态地设定。
接着,参照图9的流程图说明第2实施方式的声音同时处理装置800的工作。
步骤S201到步骤S203为止及步骤S205的处理,与第1实施方式的声音同时处理装置100的工作同样,因此说明省略。
步骤S901中,处理单位存储部802将处理单位字符串和与处理单位字符串对应的声音区间的时间信息对应地作为处理单位信息存储。
步骤S902中,更新部803判定未输出的处理单位信息是否存在。未输出的处理单位信息存在时,进入步骤S903,未输出的处理单位信息不存在时,进入步骤S205。
步骤S903中,预先设定的时间内连续发声的处理单位字符串若为多个,则将多个处理单位字符串按时间序列顺序连接,生成再处理单位字符串。
步骤S904中,更新部803对再处理单位字符串,检测分割点。分割点的检测方法采用与检测部104中的分割点的算出方法同样的方法即可。
步骤S905中,更新部803对再处理单位字符串,判定是否检测到与处理单位存储部802存储的处理单位字符串的分割点不同的分割点。检测到不同分割点时,进入步骤S906,未检测到不同分割点时,进入步骤S205。
步骤S906中,更新部803用包括再处理单位字符串的新的处理单位信息更新处理单位存储部802存储的处理单位信息,进入步骤S205。以上,第2实施方式的声音同时处理装置800的工作结束。
接着,参照图10说明第2实施方式的处理单位存储部802存储的处理单位信息的一例。
图10是表示处理单位信息1000的表,处理单位字符串501和时间信息1001对应地存储,作为处理单位信息1000。这里,作为时间信息1001,检测到处理单位字符串501的区间所对应的声音的开始时刻1002和结束时刻1003,与处理单位字符串501对应。具体地说,图10所示处理单位字符串501“千葉市内で”和开始时刻1002“10:03:31.21”、结束时刻1003“10:03:32.73”对应。
接着,参照图11到图15说明第2实施方式的声音同时处理装置800的工作的具体例。
首先,假定:图10所示处理单位信息1000所包括的处理单位字符串“千葉市内で”未输出,预先设定的时间内连续的发声所对应的字符串仅仅为“千葉市内で”。此时,更新部803的步骤S902的处理中,判定为存在未输出的处理单位信息,对处理单位字符串“千葉市内で”检测分割点。
对再处理单位字符串检测分割点的结果如图11所示。再处理单位字符串1101“千葉市内で”所对应的标签1102与对图5所示的处理单位字符串501检测的分割点的标签(图4的“千葉市内で”的标签“B,I,I”)相同,因此更新部803的处理结束。
图12表示下述例子:进而,发声继续,后续于第1实施方式中发出的声音,声音识别部102取得声音“たいんですが良いホテルを見つけて(V)”,检测部104进行分析,处理单位存储部802将“良いホテルを見つけて”存储为处理单位信息。
这里,假定为图12所示处理单位信息从输出部106全部输出了的状态,即,“千葉市内で”、“ホテルの予約をしたいんですが”、“良いホテルを見つけて”按顺序输出了的状态。声音同时处理装置800与机器翻译装置连接时,假定输出“In Chiba city”、“I'd like to make a hotelreservation.”、“Please find a good hotel.”。
接着,取得部101取得声音“もらえませんか”,通过声音识别部102及检测部104的处理获得“もらえませんか”,作为新的发声的处理单位字符串。图13表示下述例子:其后,将该处理单位字符串对应的声音区间的开始时刻和结束时刻对应地作为处理单位信息,在处理单位存储部802存储。
图9所示更新部803的更新处理中,处理单位信息1301“もらえませんか”未输出,因此,处理单位信息1301“もらえませんか”成为处理对象。此时,是否连续发声的阈值为1秒时,处理单位信息1302“千葉市内で”和处理单位信息1303“ホテルを予約したいんですが”的发声间的差为0.05秒,处理单位信息1303“ホテルを予約したいんですが”和处理单位信息1304“良いホテルを見つけて”的差为0.17秒,处理单位信息1304“良いホテルを見つけて”和处理单位信息1301“もらえませんか”的差为0.31秒,因此,这些处理单位信息对应的发声确定为在预先设定的时间内连续发声。从而,这些处理单位字符串按时间序列顺序连接而成的组合字符串“千葉市内でホテルの予約をしたいんですが良いホテルをみつけてもらえませんか”作为再处理单位字符串而生成。
图14表示:接着,对再处理单位字符串“千葉市内でホテルの予約をしたいんですが良いホテルをみつけてもらえませんか”检测分割点的结果。
如图14所示作为分割点的检测结果,检测到不同于图13所示处理单位字符串“良いホテルを見つけて”和“もらえませんか”的处理单位字符串“良いホテルを見つけてもらえませんか”。
最终更新的处理单位存储部802的处理单位信息如图15所示。
作为处理单位信息,将图13所示处理单位信息1304“良いホテルを見つけて”和处理单位信息1301“もらえませんか”,更新为图15所示处理单位信息1501“良いホテルを見つけてもらえませんか”。另外,处理单位字符串“良いホテルを見つけてもらえませんか”的声音对应的开始时刻1002和结束时刻1003,被更新为处理单位信息1304“良いホテルを見つけて”的开始时刻“10:03:37.72”和处理单位信息1301“もらえませんか”的结束时刻“10:03:41.97”。
另外,没有更新部803时,不进行处理单位的更新,从而,图13所示处理单位信息对应的全部的处理单位字符串输出,因此,形成“In Chibacity”、“I'd like to make a hotel reservation”、“Please find agood hotel”、“I cannot get it?”这一系列翻译,可能多余地生成原来的发声中不存在的“もらえないです?”这一含义的翻译。另一方面,第2实施方式的声音同时处理装置中,作为处理单位字符串的机器翻译,获得“良いホテルを見つけてもらえませんか”,因此,这里,向机器翻译装置提供处理单位字符串时,例如,获得“Could you find a good hotelfor me?”这一译文。
根据以上所示的第2实施方式,即使因后续的发声的识别结果导致适当的处理单位改变时,也可以输出正确反映原来的发声的意图的处理单位。
上述的实施方式中所示的处理步骤所示的指示,可以根据软件即程序而执行。通用的计算机系统通过预先存储该程序并读取该程序,也可以获得与上述声音同时处理装置的效果同样的效果。上述的实施方式记述的指示,作为可使计算机执行的程序,在磁盘(软盘、硬盘等)、光盘(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(注册商标)Disc等)、半导体存储器或类似其的记录介质记录。只要是计算机或插入系统可读取的记录介质,则存储形式可以是任意的方式。计算机若从该记录介质读入程序,根据该程序由CPU执行程序所记述的指示,则可以实现与上述实施方式的声音同时处理装置同样的工作。当然,计算机取得或读入程序时也可以通过网络取得或读入。
另外,也可以根据从记录介质向计算机和/或插入系统安装的程序的指示,由计算机上运行的OS(操作系统)和/或数据库管理软件、网络等的MW(中间件)等,执行用于实现本实施方式的各处理的一部分。
而且,本实施方式中的记录介质不限于与计算机或者插入系统独立的介质,也包括下载并存储或暂时存储有由LAN和/或因特网等传输的程序的记录介质。
另外,记录介质不限于一个,即使从多个介质执行本实施方式中的处理时,也包括在本实施方式中的记录介质中,介质的构成可以是任意构成。
另外,本实施方式中的计算机或插入系统是用于根据记录介质存储的程序来执行本实施方式中的各处理的装置,也可以是包括个人计算机、微计算机等的一个的装置、多个装置网络连接而成的系统等的任意构成。
另外,本实施方式中的计算机不限于个人计算机,也包括信息处理设备所包括的运算处理装置、微计算机等,是可通过程序实现本实施方式中的功能的设备、装置的总称。
虽然说明了本发明的几个实施方式,但是这些实施方式只是例示,而不是限定发明的范围。这些新实施方式能以其他各种方式实施,在不脱离发明的要旨的范围,可以进行各种省略、置换、变更。这些实施方式和/或其变形包括于发明的范围和/或要旨中,也包括于技术方案记载的发明及其均等的范围中。
Claims (9)
1.一种声音同时处理装置,其特征在于,具备:
取得声音信号的取得部;
声音识别部,其生成:上述声音信号中的声音识别处理结束而变换为字符串的声音区间所对应的字符串即确定字符串;和为后续于该确定字符串的声音区间的、处于声音识别的处理途中而未确定作为变换结果的字符串的声音区间所对应的一个以上的候补字符串;
检测部,其对于分别连接上述确定字符串和一个以上的上述候补字符串而成的一个以上的组合字符串,在由分割点分割该组合字符串时,在存在在上述组合字符串的各个中相同的、包括于上述确定字符串的字符串的情况下,将该字符串检测为处理单位字符串,上述分割点表示成为自然语言处理中的处理单位的开始位置的词素的位置;以及
输出上述处理单位字符串的输出部。
2.权利要求1所述的声音同时处理装置,其特征在于,
还具备更新部,该更新部根据新取得的第1处理单位字符串和之前取得的第2处理单位字符串的关系,在上述分割点的位置变化时,更新上述第2处理单位字符串。
3.权利要求1所述的声音同时处理装置,其特征在于,还具备:
存储部,其将上述处理单位字符串和发出该处理单位字符串的声音区间所对应的声音信号的时间信息对应地存储为处理单位信息;和
更新部,其向上述存储部追加新的处理单位信息即第1处理单位信息时,在存在先于该第1处理单位信息且在阈值以内的时间连续发声的声音区间所对应的第2处理单位信息时,将该第2处理单位信息和上述第1处理单位信息所包括的处理单位字符串按时间序列顺序连接,来生成再处理单位字符串,用该再处理单位字符串及该再处理单位字符串所对应的时间信息来更新上述存储部所存储的处理单位信息。
4.权利要求3所述的声音同时处理装置,其特征在于,
上述声音识别部取得与发出上述处理单位字符串的时间相关的时间信息,
上述更新部参照上述时间信息,判定是否存在上述第2处理单位信息。
5.权利要求3所述的声音同时处理装置,其特征在于,
上述声音识别部取得讲话者的讲话速度即语速,
上述更新部参照上述语速,判定是否存在上述第2处理单位信息。
6.权利要求1到5的任一项所述的声音同时处理装置,其特征在于,
上述自然语言处理为机器翻译时,上述处理单位是适于将上述声音信号同时并行译出的翻译单位。
7.权利要求1到5的任一项所述的声音同时处理装置,其特征在于,
上述自然语言处理为声音对话时,上述处理单位是将上述声音信号作为声音对话的任务同时并行输出的单位。
8.一种声音同时处理方法,其特征在于,
取得声音信号,
生成:上述声音信号中的声音识别处理结束而变换为字符串的声音区间所对应的字符串即确定字符串;和为后续于该确定字符串的声音区间的、处于声音识别的处理途中而未确定作为变换结果的字符串的声音区间所对应的一个以上的候补字符串;
对于分别连接上述确定字符串和一个以上的上述候补字符串而成的一个以上的组合字符串,在由分割点分割该组合字符串时,在存在在上述组合字符串的各个中相同的、包括于上述确定字符串的字符串的情况下,将该字符串检测为处理单位字符串,上述分割点表示成为自然语言处理中的处理单位的开始位置的词素的位置;
输出上述处理单位字符串。
9.一种声音同时处理程序,其特征在于,
用于使计算机作为以下单元发挥功能:
取得声音信号的取得单元;
声音识别单元,其生成:上述声音信号中的声音识别处理结束而变换为字符串的声音区间所对应的字符串即确定字符串;和为后续于该确定字符串的声音区间的、处于声音识别的处理途中而未确定作为变换结果的字符串的声音区间所对应的一个以上的候补字符串;
检测单元,其对于分别连接上述确定字符串和一个以上的上述候补字符串而成的一个以上的组合字符串,在由分割点分割该组合字符串时,在存在在上述组合字符串的各个中相同的、包括于上述确定字符串的字符串的情况下,将该字符串检测为处理单位字符串,上述分割点表示成为自然语言处理中的处理单位的开始位置的词素的位置;以及
输出上述处理单位字符串的输出单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013194639A JP6235280B2 (ja) | 2013-09-19 | 2013-09-19 | 音声同時処理装置、方法およびプログラム |
JP2013-194639 | 2013-09-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104464734A true CN104464734A (zh) | 2015-03-25 |
Family
ID=52668735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410465639.7A Withdrawn CN104464734A (zh) | 2013-09-19 | 2014-09-12 | 声音同时处理装置、方法及程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9672820B2 (zh) |
JP (1) | JP6235280B2 (zh) |
CN (1) | CN104464734A (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6303622B2 (ja) * | 2014-03-06 | 2018-04-04 | ブラザー工業株式会社 | 画像処理装置 |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
JP2016062357A (ja) | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US11875392B1 (en) * | 2014-12-23 | 2024-01-16 | Amazon Technologies, Inc. | Method and system for determining and presenting information related to a semantic context of electronic message text or voice data |
JP6470097B2 (ja) | 2015-04-22 | 2019-02-13 | 株式会社東芝 | 通訳装置、方法およびプログラム |
JP2017167805A (ja) | 2016-03-16 | 2017-09-21 | 株式会社東芝 | 表示支援装置、方法およびプログラム |
JP7230806B2 (ja) * | 2017-08-09 | 2023-03-01 | ソニーグループ株式会社 | 情報処理装置、及び情報処理方法 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3006496B2 (ja) | 1996-03-21 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
US6374219B1 (en) * | 1997-09-19 | 2002-04-16 | Microsoft Corporation | System for using silence in speech recognition |
JP3633254B2 (ja) | 1998-01-14 | 2005-03-30 | 株式会社日立製作所 | 音声認識システムおよびそのプログラムを記録した記録媒体 |
JP4465564B2 (ja) | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2002149187A (ja) * | 2000-11-07 | 2002-05-24 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
GB2391679B (en) * | 2002-02-04 | 2004-03-24 | Zentian Ltd | Speech recognition circuit using parallel processors |
JP2004012615A (ja) | 2002-06-04 | 2004-01-15 | Sharp Corp | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
JP4322785B2 (ja) * | 2004-11-24 | 2009-09-02 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
WO2007023436A1 (en) * | 2005-08-26 | 2007-03-01 | Koninklijke Philips Electronics N.V. | System and method for synchronizing sound and manually transcribed text |
JP2007079122A (ja) * | 2005-09-14 | 2007-03-29 | Advanced Telecommunication Research Institute International | 音声処理装置、およびプログラム |
US7831425B2 (en) * | 2005-12-15 | 2010-11-09 | Microsoft Corporation | Time-anchored posterior indexing of speech |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
US8515728B2 (en) * | 2007-03-29 | 2013-08-20 | Microsoft Corporation | Language translation of visual and audio input |
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
JP2009058671A (ja) * | 2007-08-30 | 2009-03-19 | National Institute Of Information & Communication Technology | 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造 |
JP2010230695A (ja) * | 2007-10-22 | 2010-10-14 | Toshiba Corp | 音声の境界推定装置及び方法 |
JP5112116B2 (ja) | 2008-03-07 | 2013-01-09 | 株式会社東芝 | 機械翻訳する装置、方法およびプログラム |
JP5418596B2 (ja) | 2009-07-17 | 2014-02-19 | 日本電気株式会社 | 音声処理装置および方法ならびに記憶媒体 |
CN101996631B (zh) * | 2009-08-28 | 2014-12-03 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
JPWO2011033834A1 (ja) * | 2009-09-18 | 2013-02-07 | 日本電気株式会社 | 音声翻訳システム、音声翻訳方法および記録媒体 |
JP2011092496A (ja) | 2009-09-29 | 2011-05-12 | Imasen Electric Ind Co Ltd | リクライニング装置 |
JP5621783B2 (ja) * | 2009-12-10 | 2014-11-12 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
US20110218802A1 (en) * | 2010-03-08 | 2011-09-08 | Shlomi Hai Bouganim | Continuous Speech Recognition |
JP5058280B2 (ja) | 2010-03-12 | 2012-10-24 | シャープ株式会社 | 翻訳装置、翻訳方法及びコンピュータプログラム |
JP5725028B2 (ja) * | 2010-08-10 | 2015-05-27 | 日本電気株式会社 | 音声区間判定装置、音声区間判定方法および音声区間判定プログラム |
KR20130014893A (ko) * | 2011-08-01 | 2013-02-12 | 한국전자통신연구원 | 음성 인식 장치 및 방법 |
JP5750380B2 (ja) | 2012-02-10 | 2015-07-22 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム |
JP2013206253A (ja) | 2012-03-29 | 2013-10-07 | Toshiba Corp | 機械翻訳装置、方法、およびプログラム |
JP5653392B2 (ja) | 2012-06-29 | 2015-01-14 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US9734820B2 (en) * | 2013-11-14 | 2017-08-15 | Nuance Communications, Inc. | System and method for translating real-time speech using segmentation based on conjunction locations |
-
2013
- 2013-09-19 JP JP2013194639A patent/JP6235280B2/ja active Active
-
2014
- 2014-09-12 CN CN201410465639.7A patent/CN104464734A/zh not_active Withdrawn
- 2014-09-19 US US14/490,722 patent/US9672820B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20150081272A1 (en) | 2015-03-19 |
JP2015060127A (ja) | 2015-03-30 |
JP6235280B2 (ja) | 2017-11-22 |
US9672820B2 (en) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065031B (zh) | 语音标注方法、装置及设备 | |
US10957312B2 (en) | Scalable dynamic class language modeling | |
CN104464734A (zh) | 声音同时处理装置、方法及程序 | |
US20170206897A1 (en) | Analyzing textual data | |
CN105426362A (zh) | 语音翻译装置、方法及程序 | |
CN112115706A (zh) | 文本处理方法、装置、电子设备及介质 | |
US10909972B2 (en) | Spoken language understanding using dynamic vocabulary | |
CN104573099A (zh) | 题目的搜索方法及装置 | |
US20220115000A1 (en) | On-device personalization of speech synthesis for training of speech recognition model(s) | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
KR20100130263A (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
JP7034027B2 (ja) | 認識装置、認識方法及び認識プログラム | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
KR20220090586A (ko) | 오디오-비주얼 매칭을 사용한 자동 음성 인식 가설 재점수화 | |
CN112151018A (zh) | 语音评测及语音识别方法、装置、设备及存储介质 | |
CN115188365B (zh) | 一种停顿预测方法、装置、电子设备及存储介质 | |
CN113658593B (zh) | 基于语音识别的唤醒实现方法及装置 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
JP2023007014A (ja) | 応答システム、応答方法、および応答プログラム | |
KR20240096898A (ko) | 격자 음성 교정 | |
KR20230156795A (ko) | 단어 분할 규칙화 | |
CN117219062A (zh) | 训练数据的生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
C04 | Withdrawal of patent application after publication (patent law 2001) | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20150325 |