CN109643547A - 信息处理装置、处理信息的方法和程序 - Google Patents
信息处理装置、处理信息的方法和程序 Download PDFInfo
- Publication number
- CN109643547A CN109643547A CN201780051783.8A CN201780051783A CN109643547A CN 109643547 A CN109643547 A CN 109643547A CN 201780051783 A CN201780051783 A CN 201780051783A CN 109643547 A CN109643547 A CN 109643547A
- Authority
- CN
- China
- Prior art keywords
- word
- unit
- speech recognition
- phrase
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000010365 information processing Effects 0.000 title claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004579 marble Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000002407 reforming Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及能够以更高的精度执行语音识别的一种信息处理装置、一种处理信息的方法和一种程序。通过对语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果,并且在对语音信息执行语音识别时,获得被识别为语音识别结果的每个单词的置信度,其是表示语音识别结果的可靠度的指标。然后,确定包括具有低置信度的单词的短语单元,并且一同输出语音识别结果和识别短语单元的语音识别结果信息。本技术可以应用于例如经由网络提供语音识别处理的语音识别系统。
Description
技术领域
本公开涉及一种信息处理装置、一种处理信息的方法和一种程序,更具体来说涉及能够以更高的精度执行语音识别的一种信息处理装置、一种处理信息的方法和一种程序。
背景技术
近年来,使用语音输入的用户界面的使用已经很普遍,并且提高语音识别处理的语音识别结果的精度以实现更好的语音输入变得重要。
此外,例如,在语音识别结果不正确的情况下,通过提示重新发声并校正语音识别结果,可以获得更准确的语音识别结果。此时,例如,已经提出了一种通过在短语单元中进行用于校正语音识别结果的重新发声来提高语音识别精度的技术,以及一种通过基于声音信息用短语单元进行分割来容易地校正重新发声的语音识别结果的技术。
例如,如专利文献1中所公开的,当改变或添加句子表达时,可以通过在包括后置助词、谓语等的短语单元中为单词准备句子来减轻用户的负担。
引文列表
专利文献
专利文献1:日本专利申请公开号2012-053634
发明内容
本发明要解决的问题
顺便提及,如上所述,由于提高语音识别精度很重要,因此需要一种能够以比以前更高的精度执行语音识别处理的技术。
鉴于这种情况构思了本公开,并且旨在以更高的精度实现语音识别。
问题的解决方案
一种根据本公开的一个方面的信息处理装置包括:语音识别单元,其通过获得从用户的话语获得的语音信息并对语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果;置信度获取单元,其在语音识别单元对语音信息执行语音识别时,获得被识别为语音识别结果的每个单词的置信度作为表示语音识别结果的可靠度的指标;短语单元确定单元,其确定包括由置信度获取单元获得的具有低置信度的单词的短语单元;以及输出处理单元,其输出语音识别结果和识别由短语单元确定单元确定的短语单元的语音识别结果信息。
一种根据本公开的一个方面的处理信息的方法或程序包括以下步骤:通过获得从用户的话语获得的语音信息并对语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果;在对语音信息执行语音识别时,获得被识别为语音识别结果的每个单词的置信度作为表示语音识别结果的可靠度的指标;确定包括具有低置信度的单词的短语单元;以及输出语音识别结果和识别短语单元的语音识别结果信息。
根据本公开的一个方面,通过获得从用户的话语获得的语音信息并对语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果,并且在对语音信息执行语音识别时,获得被识别为语音识别结果的每个单词的置信度,其是表示语音识别结果的可靠度的指标。然后,确定包括具有低置信度的单词的短语单元,并且输出语音识别结果和识别短语单元的语音识别结果信息。
发明的效果
根据本公开的一个方面,可以以更高的精度执行语音识别。
附图说明
图1是图示根据实施方案的应用本技术的语音识别系统的示例性配置的方框图。
图2是图示语音识别服务器的第一示例性配置的方框图。
图3是图示短语单元确定处理的实例的图解。
图4是图示发音信息表的图解。
图5是图示语音识别结果输出处理的实例的图解。
图6是图示语音识别过程的流程图。
图7是图示短语单元确定过程的流程图。
图8是图示起始单词指定过程的流程图。
图9是图示终止单词指定过程的流程图。
图10是图示语音识别服务器的第二示例性配置的方框图。
图11是图示短语单元确定处理的变形的图解。
图12是图示用于语音识别的用户界面的变形的图解。
图13是图示语音识别结果输出处理的变形的图解。
图14是图示根据实施方案的应用本技术的计算机的示例性配置的方框图。
具体实施方式
在下文中,将参考附图详细描述应用本技术的具体实施方案。
<语音识别系统的示例性配置>
图1是图示根据实施方案的应用本技术的语音识别系统的示例性配置的方框图。
如图1中所示,多个(在图1的实例中N个)客户端终端13-1至13-N和语音识别服务器14经由诸如互联网的网络12连接到语音识别系统11。应注意,客户端终端13-1至13-N以彼此类似的方式配置,并且在不需要彼此区分的情况下适当地称为客户端终端13。
客户端终端13包括语音信息获取设备(诸如麦克风),其中输入用户发出的语音以获得语音信息,并经由网络12将由语音信息获取设备获得的语音信息传输到语音识别服务器14。此外,客户端终端13接收从语音识别服务器14传输的语音识别结果,并将其呈现给用户。例如,客户端终端13在视频输出设备上显示表示语音识别结果的视频(图像),并从语音输出设备输出表示语音识别结果的合成语音。
语音识别服务器14对经由网络12从客户端终端13传输的语音信息执行语音识别处理。然后,语音识别服务器14经由网络12向客户端终端13传输从语音信息中识别为语音识别结果的词串等。此时,例如,语音识别服务器14不仅可以将语音识别结果传输到传输语音信息的客户端终端13,而且传输到与客户端终端13的用户通信的另一用户的另一客户端终端13。
语音识别系统11如上所述配置,并且将从客户端终端13的用户的话语获得的语音信息传输到语音识别服务器14,语音识别服务器14执行语音识别处理,并且将语音识别结果传输到客户端终端13。因此,例如,即使个别客户端终端13的处理能力低,语音识别系统11也可以通过在语音识别服务器14中实施最新的高性能语音识别处理来提供更高精度的语音识别处理。
<语音识别服务器的第一示例性配置>
图2是图示语音识别服务器14的第一示例性配置的方框图。
如图2中所示,语音识别服务器14包括通信单元21、输入声音处理单元22、语音识别单元23、置信度获取单元24、语音符号转换单元25、短语单元确定处理单元26和语音识别结果输出处理单元27。
通信单元21经由图1中的网络12与客户端终端13执行各种类型的通信。例如,通信单元21接收从客户端终端13传输的语音信息,并将其提供给输入声音处理单元22。此外,通信单元21将从语音识别结果输出处理单元27提供的语音识别结果信息传输到客户端终端13。
输入声音处理单元22对从通信单元21提供的语音信息执行各种预处理,这在语音识别单元23执行语音识别之前是必需的。例如,输入声音处理单元22执行语音活动检测(VAD)处理,其中排除不包括声音的部分和仅包括语音信息内的噪声的部分,并且检测包括发出语音的话语部分,并将话语部分的语音信息提供给语音识别单元23。
语音识别单元23对从输入声音处理单元22提供的语音信息执行语音识别,识别包括在语音信息中的话语内容,并且将表示话语内容的词串提供给语音符号转换单元25和短语单元确定处理单元26。
当语音识别单元23对语音信息执行语音识别时,置信度获取单元24获得每个单词的置信度作为表示在语音识别单元23识别单词时语音识别结果的可靠度的指标,并将其提供给短语单元确定处理单元26。例如,置信度获取单元24可以基于在语音识别单元23执行的语音识别的过程中生成的词图来获得置信度。
语音符号转换单元25参考其中单词与语音符号相关联的字典,例如,将从语音识别单元23提供的词串转换为与各个单词相关联的语音符号,并将其提供给短语单元确定处理单元26。
短语单元确定处理单元26对从语音识别单元23提供的词串执行短语单元确定处理,其中如稍后参考图3所述,基于从置信度获取单元24提供的置信度和从语音符号转换单元25提供的语音符号来确定短语单元。这里,短语单元由通过将由语音识别单元23识别的词串分割成例如当提示用户进行重新发声时优选地共同发出的每个部分而获得的一个或多个单词来配置。例如,短语单元确定处理单元26以特定单位(英语中的“冠词+单词”和日语中的“语素+后置助词或助动词”的单位)获得语音识别结果的置信度,并且在存在具有低置信度的单词a的情况下,根据该单词周围的单词确定短语单元。
此外,短语单元确定处理单元26可以基于由语音符号转换单元25转换的语音符号来参考其中浊音和清音与语音符号相关联的发音信息表(如图4中所示),并且可以确定短语单元。换句话说,短语单元确定处理单元26从紧接在具有低置信度的单词之前的单词中顺序地选择在具有低置信度的单词之前排列的单词,并且基于所选单词是否以浊音开头,指定短语单元的起始单词。同样地,短语单元确定处理单元26从紧接在具有低置信度的单词之后的单词中顺序地选择在具有低置信度的单词之后排列的单词,并且基于所选单词是否以浊音开头的确定,指定短语单元的终止单词。
语音识别结果输出处理单元27是用于允许用户识别由短语单元确定处理单元26确定的短语单元的用户界面,短语单元确定处理单元26执行语音识别结果输出处理,其中生成并输出语音识别结果和用于允许客户端终端13的用户识别短语单元的语音识别结果信息。例如,语音识别结果输出处理单元27生成并输出用于显示用户界面(参见图5)的显示信息,其中表示语音识别结果的字符被清楚地指示为在短语单元中处于分割状态,或生成并输出合成语音信息,其用于输出表示在短语单元中分割的语音识别结果的合成语音。
语音识别服务器14如上所述配置,并且对从客户端终端13传输的语音信息执行语音识别,确定用于分割识别的词串的短语单元,并且可以将在短语单元中分割词串的语音识别结果传输到客户端终端13。因此,在用客户端终端13呈现给用户的语音识别结果包括不正确的单词的情况下,可以提示用户在包括错误识别的单词的短语单元中进行重新发声。
因此,与以单词单位执行语音识别的情况相比,例如,语音识别服务器14可以校正语音识别结果以包括正确的单词,以输出其作为在短语单元中执行语音识别的结果。以这种方式,由于可以校正语音识别结果,因此语音识别服务器14可以以更高的精度执行语音识别。
<短语单元确定处理和语音识别结果输出处理>
将参考图3至图5描述由短语单元确定处理单元26执行的短语单元确定处理的实例。
如图3中所示,例如,假设语音识别单元23基于用户发出的语音信息“我看到一个穿红衬衫的人”获得“我起诉一个拿着红枪的人”的语音识别结果。此时,置信度获取单元24获得语音识别结果中单词“我”的置信度“0.99”,获得单词“起诉”的置信度“0.23”,并获得单词“人”的置信度“0.98”。同样地,置信度获取单元24获得单词“拿着”的置信度“0.99”,获得单词“红色”的置信度“0.98”,并获得单词“枪”的置信度“0.12”。此外,语音符号转换单元25将语音识别结果的每个单词转换为如图所示的语音符号。
然后,短语单元确定处理单元26基于由语音符号转换单元25转换的语音符号来参考图4中的发音信息表,并且确定短语单元,使得以浊音开头的单词被排列在具有低置信度的单词的前面和后面。或者,短语单元确定处理单元26可以确定短语单元,使得以浊音开头的单词被排列在具有低置信度的单词的前面和后面中的至少一个。
例如,短语单元确定处理单元26确定“我起诉一个人”作为短语单元,其中以浊音开头的单词“我”被排列在具有低置信度的单词“起诉”之前并且以浊音开头的单词“人”被排列在单词“起诉”之后。此外,短语单元确定处理单元26确定“红枪”作为短语单元,其中以浊音开头的单词“红色”被排列在单词“枪”之前,因为具有低置信度的单词“枪”被排列在末尾。
应注意,例如,短语单元确定处理单元26可以基于置信度,将具有高置信度的单词指定为包括具有低置信度的单词的短语单元中的起始单词和终止单词。或者,短语单元确定处理单元26可以基于置信度和语音符号,指定包括具有低置信度的单词的短语单元中的起始单词和终止单词。
图5图示在客户端终端13的视频输出设备上显示的用户界面,作为由语音识别结果输出处理单元27执行的语音识别结果输出处理的实例。
例如,假设,如上面参考图3所述,短语单元确定处理单元26针对由语音识别单元23获得的“我起诉一个拿着红枪的人”的语音识别结果来确定短语单元。在这种情况下,语音识别结果输出处理单元27执行语音识别结果输出处理,以输出用于在用户界面上显示语音识别结果的显示信息,从而清楚地指示语音识别结果被分成短语单元“我起诉一个人”和短语单元“红枪”。因此,如图5中所示,例如,在客户端终端13的视频输出设备上显示其中短语单元“我起诉一个人”和短语单元“红枪”被不同的框架包围的用户界面。
以这种方式,当提示用户进行重新发声以使用在短语单元中明确分割的用户界面重做具有不正确的语音识别结果的单词的语音识别时,用户可以容易地在短语单元中进行重新发声。
因此,语音识别单元23对包括不正确的单词的短语单元中的重发语音信息执行语音识别,由此与例如仅发出不正确的单词的情况相比,可以获得更准确的语音识别结果。
<语音识别处理>
图6是图示在语音识别服务器14中执行的语音识别过程的流程图。
例如,当通信单元21接收经由网络12从客户端终端13传输的语音信息并将其提供给输入声音处理单元22时,开始该过程。在步骤S11中,输入声音处理单元22执行从通信单元21提供的语音信息中检测包括由客户端终端13的用户发出的语音的话语部分的处理。
在步骤S12中,输入声音处理单元22根据步骤S11的处理中的话语部分的检测结果,确定客户端终端13的用户的话语是否已经开始。在步骤S12中,在输入声音处理单元22确定话语尚未开始的情况下,该过程返回到步骤S11,并且该过程暂停,直到确定话语已经开始。另一方面,在步骤S12中,在输入声音处理单元22确定客户端终端13的用户的话语已经开始的情况下,该过程进入步骤S13。
在步骤S13中,输入声音处理单元22将话语部分中的语音信息提供给语音识别单元23,并且语音识别单元23对语音信息执行语音识别。
在步骤S14中,输入声音处理单元22确定客户端终端13的用户的话语是否已经结束。在步骤S14中,在输入声音处理单元22确定话语尚未结束的情况下,该过程返回到步骤S13,并且由语音识别单元23执行的语音识别继续。另一方面,在步骤S14中,在输入声音处理单元22确定客户端终端13的用户的话语已经结束的情况下,该过程进入步骤S15。
在步骤S15中,语音识别单元23获得表示包括在语音信息中的话语内容的词串,作为基于步骤S13中的语音识别的语音识别结果,该语音识别是基于从话语的开始到结束的语音信息。然后,语音识别单元23将语音识别结果提供给语音符号转换单元25和短语单元确定处理单元26。
在步骤S16中,语音符号转换单元25将在步骤S15中从语音识别单元23提供的词串转换为每个单词的语音符号,并将其提供给短语单元确定处理单元26。
在步骤S17中,当在步骤S13中语音识别单元23执行语音识别时,置信度获取单元24获得每个单词的置信度,并将其提供给短语单元确定处理单元26。
在步骤S18中,短语单元确定处理单元26基于在步骤S16中从语音符号转换单元25提供的语音符号和在步骤S17中从置信度获取单元24提供的置信度,对在步骤S15中从语音识别单元23提供的词串执行短语单元确定处理(如稍后所述的图7中的流程图)。然后,短语单元确定处理单元26将在短语单元确定处理中确定的短语单元与词串一起提供给语音识别结果输出处理单元27。
在步骤S19中,语音识别结果输出处理单元27输出用于显示用户界面的语音识别结果信息,其中清楚地指示由语音识别单元23识别的词串被由短语单元确定处理单元26确定的短语单元分割。然后,通信单元21经由网络12将从语音识别结果输出处理单元27输出的语音识别结果信息传输到客户端终端13,然后语音识别过程终止。
图7是图示图6中的语音识别过程中的步骤S18中的短语单元确定处理的流程图。
在短语单元确定过程中,例如,从由语音识别单元23识别的词串的句子的开头处的单词顺序地执行处理。在步骤S21中,短语单元确定处理单元26首先将句子开头处的单词设置为处理目标。
在步骤S22中,短语单元确定处理单元26确定针对要处理的单词获得的置信度是否等于或小于预定阈值。
在步骤S22中,在短语单元确定处理单元26确定置信度等于或小于预定阈值的情况下,该过程进入步骤S23。
在步骤S23中,短语单元确定处理单元26执行起始单词指定处理(如稍后所述的图8中的流程图),以用于将起始单词指定为其中包括要处理的单词的短语单元的起始端。
在步骤S24中,短语单元确定处理单元26执行终止单词指定处理(如稍后所述的图9中的流程图),以用于将终止单词指定为其中包括要处理的单词的短语单元的终端。
在步骤S24中的处理之后,或在步骤S22中短语单元确定处理单元26确定置信度不等于或小于预定阈值(即,置信度大于预定阈值)的情况下,该过程进入步骤S25。
在步骤S25中,短语单元确定处理单元26确定由语音识别单元23识别的词串中包括的所有单词是否已被设置为处理目标。
在步骤S25中,在短语单元确定处理单元26确定所有单词尚未被设置为处理目标的情况下,换句话说,在存在尚未被设置为处理目标的单词的情况下,该过程进入步骤S26。
在步骤S26中,短语单元确定处理单元26新设置当前作为处理目标的单词旁边的单词作为处理目标。然后,该过程返回到步骤S22,并且对于新设置为处理目标的单词重复类似的过程。
另一方面,在步骤S25中,在短语单元确定处理单元26确定所有单词已被设置为处理目标的情况下,短语单元确定过程终止。
图8是图示图7中的短语单元确定过程中的步骤S23中的起始单词指定处理的流程图。
在步骤S31中,短语单元确定处理单元26确定是否已经选择了要处理的单词之前的所有单词作为用于指定起始单词的目标。
在步骤S31中,在短语单元确定处理单元26确定尚未选择要处理的单词之前的所有单词作为用于指定起始单词的目标的情况下,该过程进入步骤S32。换句话说,在这种情况下,存在未被选择为用于指定要处理的单词之前的起始单词的目标的单词。
在步骤S32中,短语单元确定处理单元26选择紧接在前的单词作为用于指定起始单词的目标。例如,在第一次执行起始单词指定处理的情况下,短语单元确定处理单元26选择紧接在图7中的步骤S21或S26中要处理的单词之前的单词作为用于指定起始单词的目标。此外,在第二次或以后执行起始单词指定处理的情况下,短语单元确定处理单元26选择紧接在当前被选择的单词之前的单词作为用于指定起始单词的目标。
在步骤S33中,短语单元确定处理单元26确定在紧接在前的步骤S32中选择的单词的置信度是否等于或小于预定阈值。
在步骤S33中,在短语单元确定处理单元26确定所选单词的置信度不等于或小于预定阈值(即,置信度大于预定阈值)的情况下,该过程进入步骤S34。
在步骤S34中,短语单元确定处理单元26根据从语音符号转换单元25提供的语音符号确定所选单词的语音符号是否以浊音开头。
在步骤S34中,在短语单元确定处理单元26确定所选单词的语音符号以浊音开头的情况下,该过程进入步骤S35。在步骤S35中,短语单元确定处理单元26将所选单词指定为起始单词。
另一方面,在步骤S34中短语单元确定处理单元26确定所选单词的语音符号不以浊音开头的情况下,换句话说,所选单词的语音符号以清音开头,该过程返回到步骤S31,并且此后重复类似的过程。
此外,在步骤S33中,在短语单元确定处理单元26确定所选单词的置信度等于或小于预定阈值的情况下,该过程进入步骤S36。
在步骤S36中,短语单元确定处理单元26指定紧接在被选择作为用于指定此时的起始单词的目标的单词之后的单词,作为起始单词。应注意,例如,在第一次执行起始单词指定处理的情况下,紧接在要处理的单词之前的单词被选择作为用于指定起始单词的目标,并且紧接在所选单词之后的要处理的单词被指定为起始单词。
另一方面,在步骤S31中,在短语单元确定处理单元26确定已经选择了要处理的单词之前的所有单词作为用于指定起始单词的目标的情况下,该过程进入步骤S37。
在步骤S37中,短语单元确定处理单元26将由语音识别单元23识别的词串的句子的开头处的单词指定为起始单词。
在步骤S35、步骤S36或步骤S37中的处理之后,起始单词指定过程终止。
图9是图示图7中的短语单元确定过程中的步骤S24中的终止单词指定处理的流程图。
在步骤S41中,短语单元确定处理单元26确定是否已经选择了要处理的单词之后的所有单词作为用于指定终止单词的目标。
在步骤S41中,在短语单元确定处理单元26确定尚未选择要处理的单词之后的所有单词作为用于指定终止单词的目标的情况下,该过程进入步骤S42。换句话说,在这种情况下,存在未被选择作为用于指定要处理的单词之后的终止单词的目标的单词。
在步骤S42中,短语单元确定处理单元26选择紧接在后的单词作为用于指定终止单词的目标。例如,在第一次执行终止单词指定处理的情况下,短语单元确定处理单元26选择紧接在图7中的步骤S21或S26中要处理的单词之后的单词作为用于指定终止单词的目标。此外,在第二次或以后执行终止单词指定处理的情况下,短语单元确定处理单元26选择紧接在当前被选择的单词之后的单词作为用于指定终止单词的目标。
在步骤S43中,短语单元确定处理单元26确定在紧接在前的步骤S42中选择的单词的置信度是否等于或小于预定阈值。
在步骤S43中,在短语单元确定处理单元26确定所选单词的置信度不等于或小于预定阈值(即,置信度大于预定阈值)的情况下,该过程进入步骤S44。
在步骤S44中,短语单元确定处理单元26根据从语音符号转换单元25提供的语音符号确定所选单词的语音符号是否以浊音开头。
在步骤S44中,在短语单元确定处理单元26确定所选单词的语音符号以浊音开头的情况下,该过程进入步骤S45。在步骤S45中,短语单元确定处理单元26将所选单词指定为终止单词。
另一方面,在步骤S44中短语单元确定处理单元26确定所选单词的语音符号不以浊音开头的情况下,换句话说,所选单词的语音符号以清音开头,该过程返回到步骤S41,并且此后重复类似的过程。
此外,在步骤S43中,在短语单元确定处理单元26确定所选单词的置信度等于或小于预定阈值的情况下,该过程进入步骤S46。
在步骤S46中,短语单元确定处理单元26指定紧接在被选择作为用于指定此时的终止单词的目标的单词之前的单词,作为终止单词。应注意,例如,在第一次执行终止单词指定处理的情况下,紧接在要处理的单词之后的单词被选择作为用于指定终止单词的目标,并且紧接在所选单词之前的要处理的单词被指定为终止单词。
另一方面,在步骤S41中,在短语单元确定处理单元26确定已经选择了要处理的单词之后的所有单词作为用于指定终止单词的目标的情况下,该过程进入步骤S47。
在步骤S47中,短语单元确定处理单元26将由语音识别单元23识别的词串的句子的末尾处的单词指定为终止单词。
在步骤S45、步骤S46或步骤S47中的处理之后,终止单词指定过程终止。
如上所述,语音识别服务器14在对从客户端终端13传输的语音信息执行语音识别时通过短语单元确定处理来确定短语单元,由此可以呈现可以识别短语单元以及语音识别结果的用户界面。因此,可以使用户在短语单元中进行重新发声,由此可以获得更准确的语音识别结果。
<语音识别服务器的第二示例性配置>
图10是图示语音识别服务器14的第二示例性配置的方框图。应注意,在图10中所示的语音识别服务器14A中,与图2中的语音识别服务器14共同的配置由相同的参考数字表示,并且省略其详细描述。
如图10中所示,语音识别服务器14A具有与图2中的语音识别服务器14共同的配置,其包括通信单元21、输入声音处理单元22、语音识别单元23、置信度获取单元24、语音符号转换单元25、短语单元确定处理单元26和语音识别结果输出处理单元27。此外,语音识别服务器14A包括单字符语音识别单元28和自然语言分析单元29。
单字符语音识别单元28能够以一个字符为单位对从输入声音处理单元22提供的语音信息执行语音识别。例如,与语音识别单元23相比,单字符语音识别单元28包括专用于以一个字符为单位的语音识别的语音识别引擎。
例如,在语音识别服务器14A中,在确定包括具有低置信度的单词的短语单元时,不能指定如上所述以浊音开头的单词的情况下,短语单元确定处理单元26确定仅包括具有低置信度的单词的短语单元。换句话说,在这种情况下,仅提示具有低置信度的单词的重新发声。此后,当输入声音处理单元22获得与重新发声相关联的语音信息时,输入声音处理单元22将与具有低置信度的单词相关联的语音信息提供给单字符语音识别单元28,并且使单字符语音识别单元28执行语音识别。
因此,在确定包括具有低置信度的单词的短语单元时,即使确定仅包括该单词的短语单元,与使语音识别单元23对重新发声执行语音识别的情况相比,也可以提高语音识别的精度。
由对语音信息执行语音识别的语音识别单元23获得的语音识别结果被提供给自然语言分析单元29。然后,自然语言分析单元29对语音识别结果执行自然语言分析,并且获得包括在语音识别结果中的单词的句子元素(句子成分)作为分析结果。
如上文参考图3所述,在语音识别单元23获得“我起诉一个拿着红枪的人”的语音识别结果的情况下,自然语言分析单元29获得语音识别结果中包括的每个单词的句子元素。例如,自然语言分析单元29获得单词“我”是名词(主语),单词“起诉”是动词,单词“一”是冠词,单词“人”是名词(宾语),单词“拿着”是介词,单词“一”是冠词,单词“红色”是形容词,并且单词“枪”是名词的分析结果。
然后,短语单元确定处理单元26可以根据这些句子元素基于语言结构来确定短语单元。例如,短语单元确定处理单元26基于主语、动词和宾语的紧密联系的语言结构将“我起诉一个人”确定为短语单元。此外,例如,短语单元确定处理单元26基于冠词、形容词和名词的紧密联系的语言结构将“红枪”确定为短语单元。
以这种方式,在基于语言结构确定短语单元的情况下,短语单元确定处理单元26可以在主语、动词和宾语的紧密联系的语言结构中选择以清音开头的单词作为起始单词或终止单词。
例如,将描述语音识别单元23基于用户发出的语音信息“她玩弄她的头发”获得“她用她的头发祈祷”的语音识别结果的示例性情况。
在这种情况下,例如,自然语言分析单元29获得单词“她”是名词(主语),单词“祈祷”是动词,单词“用”是介词,单词“她”是名词(宾语),并且单词“头发”是名词(宾语)的分析结果。此时,单词“祈祷”的置信度低,并且短语单元确定处理单元26执行用于确定包括单词“祈祷”的短语单元的处理。
然后,即使在具有低置信度的单词“祈祷”之前的单词“她”不以浊音开头,短语单元确定处理单元26也可以确定这是主语和动词的紧密联系的语言结构,并且声音之间的联系很强。因此,短语单元确定处理单元26选择不以浊音开头的单词“她”作为起始单词,并且可以将“她玩弄”确定为短语单元。
<变形例>
将参考图11描述短语单元确定处理的变形。
如上所述,在确定短语单元时,短语单元确定处理单元26基于其是否是以浊音开头的单词来执行处理。这是因为可以对以浊音开头的单词比以清音开头的单词以更高的精度执行语音识别。另外,例如,在包括相对大量的浊音(例如,超过所有单词的一半)的情况下,认为即使该单词以清音开头,也可以以高精度执行语音识别。
因此,短语单元确定处理单元26可以通过指定以清音开头并包括相对大量的浊音的单词作为起始单词或终止单词来确定短语单元。
例如,如图11中所示,假设语音识别单元23基于用户发出的语音信息“统计显示人们的孩子较少”获得了“人们的孩子较少的统计鞋”的语音识别结果。此时,尽管单词“统计”不以浊音开头,但是可以确定浊音的内容率很高,并且短语单元确定处理单元26可以将单词“统计”确定为起始单词,并且将单词“统计显示”确定为短语单元。
将参考图12描述用于语音识别的用户界面的变形。
图12图示系统中的示例性用户界面,其允许用户选择要发出的内容并输入语音。如图12的上部所示,语音识别系统11可以应用于系统,该系统允许用户响应于问题“你更喜欢哪一个?”而发出选项“贝壳”或选项“玻璃球”。然而,选项“贝壳”包括大量的清音,并且假设语音识别的精度降低。
以这种方式,在假设语音识别的精度降低的情况下,语音识别系统11可以将选项改变为具有与选项“贝壳”类似的含义并且包括大量浊音的单词。换句话说,如图12的下部所示,语音识别系统11可以将选项“贝壳”改变为选项“贝类”。因此,通过使用户发出包括比选项“贝壳”更多的浊音的选项“贝类”,可以以更高的精度执行语音识别。
将参考图13描述语音识别结果输出处理的变形。
图13图示由语音识别结果输出处理单元27输出的用户界面的变形。
例如,如参考图5所述,清楚地指示被分割为短语单元“我起诉一个人”和短语单元“红枪”的用户界面呈现给用户,由此可以提示短语单元“红枪”的重新发声。然而,在这种情况下,由于终止单词以清音开头,所以认为语音识别相对于重新发声的精度难以大大提高。
因此,如图13中所示,语音识别结果输出处理单元27可以输出在其中以清音开头的单词是终止单词的短语单元“红枪”之后添加警告句“以“请”说话”的用户界面。换句话说,在短语单元中的终止单词以清音开头的情况下,呈现用于提示在终止单词之后添加不影响句子并以浊音开头的单词的话语的用户界面。因此,当用户进行“请让我看到一个穿红衬衫的人”的重新发声时,由于终止单词以浊音开头,所以语音识别相对于重新发声的精度大大提高。
应注意,在短语单元中的起始单词以清音开头的情况下,类似地,可以呈现用于提示在起始单词之前添加不影响句子并以浊音开头的单词的重新发声的用户界面。
应注意,参考上述流程图描述的每个处理不一定按照流程图中所示的顺序以时间序列的方式处理,并且可以并行或单独执行(例如,并行处理或对象处理)。此外,程序可以由一个中央处理单元(CPU)处理,或可以由多个CPU进行分布式处理。
此外,上述一系列处理(处理信息的方法)可以由硬件或软件执行。在一系列处理由软件执行的情况下,从程序记录介质安装构成软件的程序,其中程序被记录到包含在专用硬件中的计算机中,或例如能够通过在其中安装各种程序来执行各种功能的通用个人计算机等中。
图14是图示使用程序执行上述一系列处理的计算机的示例性硬件配置的方框图。
这里,图14中所示的计算机101对应于例如图1中的客户端终端13,其具有能够仅使用客户端终端13执行语音识别处理而不经由网络12执行处理的示例性配置。
计算机101包括语音信息获取设备102、视频输出设备103、语音输出设备104、CPU105、存储器106、存储设备107和网络输入输出设备108。此外,以与图2中所示的语音识别服务器14类似的方式,计算机101包括输入声音处理单元22、语音识别单元23、置信度获取单元24、语音符号转换单元25、短语单元确定处理单元26和语音识别结果输出处理单元27。此外,以与图10中所示的语音识别服务器14A类似的方式,计算机101包括单字符语音识别单元28和自然语言分析单元29。
例如,语音信息获取设备102包括麦克风,视频输出设备103包括显示器,并且语音输出设备104包括扬声器。此外,网络输入输出设备108对应于图2中的通信单元21,并且能够根据例如局域网(LAN)的标准执行通信。
然后,在计算机101中,CPU 105将存储在存储设备107中的程序加载到存储器106中并执行该程序,由此执行上述一系列处理。
应注意,由CPU 105执行的程序可以通过将其记录在封装介质中来提供,封装介质包括例如磁盘(包括软盘)、光盘(例如,压缩光盘只读存储器(CD-ROM)和数字通用光盘(DVD))、磁光盘、半导体存储器等,或可以通过使用网络输入输出设备108经由有线或无线传输介质来提供。
应注意,本技术也可以采用以下配置。
(1)
一种信息处理装置,包括:
语音识别单元,其通过获得从用户的话语获得的语音信息并对所述语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果;
置信度获取单元,其在所述语音识别单元对所述语音信息执行所述语音识别时,获得被识别为所述语音识别结果的每个单词的置信度作为表示所述语音识别结果的可靠度的指标;
短语单元确定单元,其确定包括由所述置信度获取单元获得的具有低置信度的单词的短语单元;以及
输出处理单元,其一同输出所述语音识别结果和识别由所述短语单元确定单元确定的所述短语单元的语音识别结果信息。
(2)
根据上述(1)所述的信息处理装置,进一步包括:
语音符号转换单元,其将被识别为所述语音识别结果的所述词串转换为每个单词的语音符号,其中
所述短语单元确定单元基于由所述语音符号转换单元转换的所述语音符号确定所述短语单元。
(3)
根据上述(2)所述的信息处理装置,其中
所述短语单元确定单元参考由所述语音符号转换单元转换的所述语音符号,并且将以浊音开头的单词指定为作为所述短语单元的起始端或终端的单词。
(4)
根据上述(3)所述的信息处理装置,其中
所述短语单元确定单元从紧接在具有低置信度的所述单词之前的单词中顺序地选择在具有低置信度的所述单词之前排列的单词,并且基于所述所选单词是否以浊音开头,指定所述短语单元的起始单词。
(5)
根据上述(3)或(4)所述的信息处理装置,其中
所述短语单元确定单元从紧接在具有低置信度的所述单词之后的单词中顺序地选择在具有低置信度的所述单词之后排列的单词,并且基于所述所选单词是否以浊音开头,指定所述短语单元的终止单词。
(6)
根据上述(1)至(5)中任一项所述的信息处理装置,进一步包括:
自然语言分析单元,其对包括被识别为所述语音识别结果的所述词串的句子执行自然语言分析,其中
所述短语单元确定单元参考由所述自然语言分析单元获得的分析结果,并且基于紧密联系的语言结构确定所述短语单元。
(7)
根据上述(1)至(6)中任一项所述的信息处理装置,进一步包括:
单字符语音识别单元,其以一个字符为单位对所述语音信息执行语音识别,其中
在所述短语单元确定单元确定仅包括具有低置信度的所述单词的所述短语单元之后,所述单字符语音识别单元对相对于具有低置信度的所述单词重新发出的语音信息执行语音识别。
(8)
根据上述(1)至(7)中任一项所述的信息处理装置,其中
在所述短语单元的起始单词或终止单词不以浊音开头的情况下,所述输出处理单元使得呈现用户界面,所述用户界面用于提示在所述短语单元之前或之后添加不影响句子并以浊音开头的单词的重新发声。
(9)
根据上述(1)至(8)中任一项所述的信息处理装置,进一步包括:
通信单元,其经由网络与另一个装置通信;以及
输入声音处理单元,其执行用于检测所述语音信息包括语音的话语部分的处理,其中
所述通信单元获得经由所述网络从所述另一个装置传输的所述语音信息,并将所述语音信息提供给所述输入声音处理单元,以及
经由所述网络将从所述输出处理单元输出的所述语音识别结果信息传输到所述另一个装置。
(10)
一种处理信息的方法,包括以下步骤:
通过获得从用户的话语获得的语音信息并对所述语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果;
在对所述语音信息执行所述语音识别时,获得被识别为所述语音识别结果的每个单词的置信度作为表示所述语音识别结果的可靠度的指标;
确定包括具有低置信度的单词的短语单元;以及
一同输出所述语音识别结果和识别所述短语单元的语音识别结果信息。
(11)
一种用于使计算机执行信息处理的程序,包括以下步骤:
通过获得从用户的话语获得的语音信息并对所述语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果;
在对所述语音信息执行所述语音识别时,获得被识别为所述语音识别结果的每个单词的置信度作为表示所述语音识别结果的可靠度的指标;
确定包括具有低置信度的单词的短语单元;以及
一同输出所述语音识别结果和识别所述短语单元的语音识别结果信息。
应注意,本实施方案不限于上述实施方案,并且在不脱离本公开的主旨的情况下,可以进行各种修改。
参考符号列表
11 语音识别系统
12 网络
13 客户端终端
14 语音识别服务器
21 通信单元
22 输入声音处理单元
23 语音识别单元
24 置信度获取单元
25 语音符号转换单元
26 短语单元确定处理单元
27 语音识别结果输出处理单元
28 单字符语音识别单元
29 自然语言分析单元
101 计算机
102 语音信息获取设备
103 视频输出设备
104 语音输出设备
105 CPU
106 存储器
107 存储设备
108 网络输入输出设备。
Claims (11)
1.一种信息处理装置,包含:
语音识别单元,其通过获得从用户的话语获得的语音信息并对所述语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果;
置信度获取单元,其在所述语音识别单元对所述语音信息执行所述语音识别时,获得被识别为所述语音识别结果的每个单词的置信度作为表示所述语音识别结果的可靠度的指标;
短语单元确定单元,其确定包括由所述置信度获取单元获得的具有低置信度的单词的短语单元;以及
输出处理单元,其一同输出所述语音识别结果和识别由所述短语单元确定单元确定的所述短语单元的语音识别结果信息。
2.根据权利要求1所述的信息处理装置,进一步包含:
语音符号转换单元,其将被识别为所述语音识别结果的所述词串转换为每个单词的语音符号,其中
所述短语单元确定单元基于由所述语音符号转换单元转换的所述语音符号确定所述短语单元。
3.根据权利要求2所述的信息处理装置,其中
所述短语单元确定单元参考由所述语音符号转换单元转换的所述语音符号,并且将以浊音开头的单词指定为作为所述短语单元的起始端或终端的单词。
4.根据权利要求2所述的信息处理装置,其中
所述短语单元确定单元从紧接在具有低置信度的所述单词之前的单词中顺序地选择在具有低置信度的所述单词之前排列的单词,并且基于所述所选单词是否以浊音开头,指定所述短语单元的起始单词。
5.根据权利要求2所述的信息处理装置,其中
所述短语单元确定单元从紧接在具有低置信度的所述单词之后的单词中顺序地选择在具有低置信度的所述单词之后排列的单词,并且基于所述所选单词是否以浊音开头,指定所述短语单元的终止单词。
6.根据权利要求1所述的信息处理装置,进一步包含:
自然语言分析单元,其对包括被识别为所述语音识别结果的所述词串的句子执行自然语言分析,其中
所述短语单元确定单元参考由所述自然语言分析单元获得的分析结果,并且基于紧密联系的语言结构确定所述短语单元。
7.根据权利要求1所述的信息处理装置,进一步包含:
单字符语音识别单元,其以一个字符为单位对所述语音信息执行语音识别,其中
在所述短语单元确定单元确定仅包括具有低置信度的所述单词的所述短语单元之后,所述单字符语音识别单元对相对于具有低置信度的所述单词重新发出的语音信息执行语音识别。
8.根据权利要求1所述的信息处理装置,其中
在所述短语单元的起始单词或终止单词不以浊音开头的情况下,所述输出处理单元使得呈现用户界面,所述用户界面用于提示在所述短语单元之前或之后添加不影响句子并以浊音开头的单词的重新发声。
9.根据权利要求1所述的信息处理装置,进一步包含:
通信单元,其经由网络与另一个装置通信;以及
输入声音处理单元,其执行用于检测所述语音信息包括语音的话语部分的处理,其中
所述通信单元获得经由所述网络从所述另一个装置传输的所述语音信息,并将所述语音信息提供给所述输入声音处理单元,以及
经由所述网络将从所述输出处理单元输出的所述语音识别结果信息传输到所述另一个装置。
10.一种处理信息的方法,包含以下步骤:
通过获得从用户的话语获得的语音信息并对所述语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果;
在对所述语音信息执行所述语音识别时,获得被识别为所述语音识别结果的每个单词的置信度作为表示所述语音识别结果的可靠度的指标;
确定包括具有低置信度的单词的短语单元;以及
一同输出所述语音识别结果和识别所述短语单元的语音识别结果信息。
11.一种用于使计算机执行信息处理的程序,包含以下步骤:
通过获得从用户的话语获得的语音信息并对所述语音信息执行语音识别,获得表示话语内容的词串作为语音识别结果;
在对所述语音信息执行所述语音识别时,获得被识别为所述语音识别结果的每个单词的置信度作为表示所述语音识别结果的可靠度的指标;
确定包括具有低置信度的单词的短语单元;以及
一同输出所述语音识别结果和识别所述短语单元的语音识别结果信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016-170308 | 2016-08-31 | ||
JP2016170308 | 2016-08-31 | ||
PCT/JP2017/029493 WO2018043139A1 (ja) | 2016-08-31 | 2017-08-17 | 情報処理装置および情報処理方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109643547A true CN109643547A (zh) | 2019-04-16 |
Family
ID=61300773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780051783.8A Pending CN109643547A (zh) | 2016-08-31 | 2017-08-17 | 信息处理装置、处理信息的方法和程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190180751A1 (zh) |
EP (1) | EP3509060A4 (zh) |
JP (1) | JPWO2018043139A1 (zh) |
CN (1) | CN109643547A (zh) |
WO (1) | WO2018043139A1 (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157166A (ja) * | 2003-11-28 | 2005-06-16 | Toyota Central Res & Dev Lab Inc | 音声認識装置、音声認識方法及びプログラム |
JP2006010739A (ja) * | 2004-06-22 | 2006-01-12 | Toyota Central Res & Dev Lab Inc | 音声認識装置 |
CN101002455A (zh) * | 2004-06-04 | 2007-07-18 | B·F·加萨比安 | 在移动和固定环境中增强数据输入的系统 |
CN101082836A (zh) * | 2007-06-29 | 2007-12-05 | 华中科技大学 | 一种整合语音输入和手写输入功能的汉字输入系统 |
JP2010197669A (ja) * | 2009-02-25 | 2010-09-09 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集装置 |
CN103810996A (zh) * | 2014-02-21 | 2014-05-21 | 北京凌声芯语音科技有限公司 | 待测试语音的处理方法、装置及系统 |
JP2016109725A (ja) * | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029492A (ja) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | 音声翻訳装置、音声翻訳方法、音声認識装置 |
US20050114131A1 (en) * | 2003-11-24 | 2005-05-26 | Kirill Stoimenov | Apparatus and method for voice-tagging lexicon |
TWI277949B (en) * | 2005-02-21 | 2007-04-01 | Delta Electronics Inc | Method and device of speech recognition and language-understanding analysis and nature-language dialogue system using the method |
US8326631B1 (en) * | 2008-04-02 | 2012-12-04 | Verint Americas, Inc. | Systems and methods for speech indexing |
JP5550496B2 (ja) | 2010-08-31 | 2014-07-16 | 富士フイルム株式会社 | 文書作成支援装置、文書作成支援方法、並びに文書作成支援プログラム |
US20160210276A1 (en) * | 2013-10-24 | 2016-07-21 | Sony Corporation | Information processing device, information processing method, and program |
-
2017
- 2017-08-17 WO PCT/JP2017/029493 patent/WO2018043139A1/ja unknown
- 2017-08-17 JP JP2018537118A patent/JPWO2018043139A1/ja active Pending
- 2017-08-17 CN CN201780051783.8A patent/CN109643547A/zh active Pending
- 2017-08-17 EP EP17846147.1A patent/EP3509060A4/en not_active Withdrawn
- 2017-08-17 US US16/323,734 patent/US20190180751A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157166A (ja) * | 2003-11-28 | 2005-06-16 | Toyota Central Res & Dev Lab Inc | 音声認識装置、音声認識方法及びプログラム |
CN101002455A (zh) * | 2004-06-04 | 2007-07-18 | B·F·加萨比安 | 在移动和固定环境中增强数据输入的系统 |
JP2006010739A (ja) * | 2004-06-22 | 2006-01-12 | Toyota Central Res & Dev Lab Inc | 音声認識装置 |
CN101082836A (zh) * | 2007-06-29 | 2007-12-05 | 华中科技大学 | 一种整合语音输入和手写输入功能的汉字输入系统 |
JP2010197669A (ja) * | 2009-02-25 | 2010-09-09 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集装置 |
CN103810996A (zh) * | 2014-02-21 | 2014-05-21 | 北京凌声芯语音科技有限公司 | 待测试语音的处理方法、装置及系统 |
JP2016109725A (ja) * | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3509060A1 (en) | 2019-07-10 |
EP3509060A4 (en) | 2019-08-28 |
JPWO2018043139A1 (ja) | 2019-06-24 |
US20190180751A1 (en) | 2019-06-13 |
WO2018043139A1 (ja) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111415677B (zh) | 用于生成视频的方法、装置、设备和介质 | |
CN111432233B (zh) | 用于生成视频的方法、装置、设备和介质 | |
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
US9070369B2 (en) | Real time generation of audio content summaries | |
US20230206897A1 (en) | Electronic apparatus and method for controlling thereof | |
Fok et al. | Towards more robust speech interactions for deaf and hard of hearing users | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
EP3509062B1 (en) | Audio recognition device, audio recognition method, and program | |
CN109754783A (zh) | 用于确定音频语句的边界的方法和装置 | |
TW201214413A (en) | Modification of speech quality in conversations over voice channels | |
CN114999441B (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
JP2013167666A (ja) | 音声認識装置、音声認識方法、及びプログラム | |
KR20240073984A (ko) | 관찰된 쿼리 패턴들에 기초하는 타겟 디바이스에 대한 증류 | |
CN109643545A (zh) | 信息处理设备和信息处理方法 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
WO2018079294A1 (ja) | 情報処理装置及び情報処理方法 | |
EP4449407A1 (en) | Adaptation and training of neural speech synthesis | |
WO2010036346A1 (en) | Mass electronic question filtering and enhancement system for audio broadcasts and voice conferences | |
CN111415662A (zh) | 用于生成视频的方法、装置、设备和介质 | |
CN109643547A (zh) | 信息处理装置、处理信息的方法和程序 | |
CN113761865A (zh) | 声文重对齐及信息呈现方法、装置、电子设备和存储介质 | |
WO2021171417A1 (ja) | 発話終端検出装置、制御方法、及びプログラム | |
JP2019109424A (ja) | 計算機、言語解析方法、及びプログラム | |
Tong | Speech to text with emoji | |
CN114822492B (zh) | 语音合成方法及装置、电子设备、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190416 |
|
WD01 | Invention patent application deemed withdrawn after publication |