CN110322881A - 语音翻译装置、语音翻译方法及其存储介质 - Google Patents

语音翻译装置、语音翻译方法及其存储介质 Download PDF

Info

Publication number
CN110322881A
CN110322881A CN201910231944.2A CN201910231944A CN110322881A CN 110322881 A CN110322881 A CN 110322881A CN 201910231944 A CN201910231944 A CN 201910231944A CN 110322881 A CN110322881 A CN 110322881A
Authority
CN
China
Prior art keywords
text
translation
language
user
opponent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910231944.2A
Other languages
English (en)
Inventor
古川博基
西川刚树
坂口敦
林田亘平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2018230066A external-priority patent/JP7171402B2/ja
Application filed by Panasonic Corp filed Critical Panasonic Corp
Publication of CN110322881A publication Critical patent/CN110322881A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

语音翻译装置具有:音源方向推定部,根据由麦克风阵列部取得的音响信号,推定音源方向;以及控制部,使用由存储于存储部的预先选择的一布局信息示出的位置关系,在由翻译开始按键指示了翻译开始后基于推定出的音源方向,确定发言者是使用者及对话对手的中的一者,且决定示出识别音响信号的内容的一个语言和翻译音响信号的内容的另一个语言的翻译方向,按照决定的翻译方向,取得以一个语言对音响信号进行识别所得的文本文,及以另一个语言对该文本文进行翻译所得的翻译文本文,控制部,在与一者的位置对应的显示器的区域显示文本文,在与另一者的位置对应的显示器的区域显示翻译文本文。

Description

语音翻译装置、语音翻译方法及其存储介质
技术领域
本公开涉及语音翻译装置、语音翻译方法及其存储介质。
背景技术
例如在专利文献1中公开了下述技术,即,在使用者与其对话对手的2个语言间,对使用者与其对话对手的发言内容的各自的语言进行识别,将发言内容翻译为彼此的对手的语言。
现有技术文献
专利文献
专利文献1:日本专利第3891023号公报
发明内容
发明要解决的课题
但是,在专利文献1中公开的技术中存在下述课题,即,使用者与其对话对手各自需要每次进行按键操作然后发言,操作繁杂。
本公开就是鉴于上述的情况而提出的,目的在于提供能够提高操控性的语音翻译装置、语音翻译方法及其存储介质。
用于解决课题的手段
本公开的一个方式涉及的语音翻译装置是语音翻译装置,具有:翻译开始按键,通过被所述语音翻译装置的使用者或所述使用者的对话对手操作从而指示翻译开始;音源方向推定部,通过对由麦克风阵列部取得的音响信号进行信号处理,从而推定音源方向;控制部,使用由多个布局信息中的预先选择的一布局信息示出的位置关系,在由所述翻译开始按键指示了翻译开始后,基于由所述音源方向推定部推定出的音源方向,确定发出语音的发言者是所述使用者及所述对话对手中的一者,且决定翻译方向,所述多个布局信息示出所述使用者、所述对话对手、及显示器的不同的位置关系,存储于存储部,所述翻译方向示出第1语言和与所述第1语言不同的第2语言中的识别所述音响信号的内容的一个语言和翻译所述音响信号的内容的另一个语言;翻译部,按照由所述控制部决定的所述翻译方向,取得使识别处理部以所述一个语言对所述音响信号进行识别所得的表示所述音响信号的内容的文本文,及使翻译处理部以另一个语言对该文本文进行翻译所得的表示所述音响信号的内容的翻译文本文;以及显示部,在所述显示器的与确定出的所述一者的位置对应的区域显示所述文本文,在所述显示器的与不同于所述一者的另一者的位置对应的区域显示所述翻译文本文。
此外,这些方式中的一部分具体的方式可以使用系统、方法、集成电路、计算机程序或能够由计算机读取的CD-ROM等存储介质实现,也可以使用系统、方法、集成电路、计算机程序及存储介质的任意的组合实现。
发明的效果
根据本公开,能够实现能够提高操控性的语音翻译装置等。
附图说明
图1是表示实施方式1中的语音翻译装置的外观和使用场景的一个例子的图。
图2是表示实施方式1中的语音翻译装置的结构的一个例子的图。
图3A是表示构成实施方式1中的麦克风阵列部的麦克风阵列的实际安装例的说明图。
图3B是表示构成实施方式1中的麦克风阵列部的麦克风阵列的实际安装例的说明图。
图3C是表示构成实施方式1中的麦克风阵列部的麦克风阵列的实际安装例的说明图。
图4A是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图4B是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图4C是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图4D是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图4E是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图5是表示存储于实施方式1中的存储部的坐标系和分割区域和分别分配给分割区域的索引的一个例子的图。
图6A是表示在纵向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图6B是表示在纵向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图6C是表示在纵向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图6D是表示在纵向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图6E是表示在纵向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图7A是表示在纵向地使用实施方式1中的语音翻译装置的情况下显示于显示器的显示画面的一个例子的图。
图7B是表示在纵向地使用实施方式1中的语音翻译装置的情况下显示于显示器的显示画面的一个例子的图。
图7C是表示在纵向地使用实施方式1中的语音翻译装置的情况下显示于显示器的显示画面的一个例子的图。
图7D是表示在纵向地使用实施方式1中的语音翻译装置的情况下显示于显示器的显示画面的一个例子的图。
图8A是表示显示于实施方式1中的显示器的显示画面的一个例子的图。
图8B是表示显示于实施方式1中的显示器的显示画面的一个例子的图。
图9是表示实施方式1中的语音翻译装置进行的动作处理的流程图。
图10A是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图10B是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图10C是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图10D是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图10E是表示存储于实施方式1中的存储部的布局信息的一个例子的图。
图11A是表示在横向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图11B是表示在横向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图11C是表示在横向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图11D是表示在横向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图11E是表示在横向地使用实施方式1中的语音翻译装置的情况下使用者及对话对手所在的分割区域的索引的图。
图12A是表示在横向地使用实施方式1中的语音翻译装置的情况下显示于显示器的显示画面的一个例子的图。
图12B是表示在横向地使用实施方式1中的语音翻译装置的情况下显示于显示器的显示画面的一个例子的图。
图12C是表示在横向地使用实施方式1中的语音翻译装置的情况下显示于显示器的显示画面的一个例子的图。
图13是表示实施方式1的变形例1中的语音翻译装置的结构的一个例子的图。
图14是表示实施方式1的变形例2中的语音翻译装置的结构的一个例子的图。
图15是表示实施方式1的实施例中的语音翻译装置的结构的一个例子的图。
图16是表示实施方式1的实施例中的语音翻译装置进行的动作处理的流程图。
图17是表示实施方式2中的语音翻译装置的结构的一个例子的图。
图18是表示实施方式2中的语音翻译装置进行的动作处理的流程图。
具体实施方式
本公开的一个方式涉及的语音翻译装置是语音翻译装置,具有:翻译开始按键,通过被所述语音翻译装置的使用者或所述使用者的对话对手操作从而指示翻译开始;音源方向推定部,通过对由麦克风阵列部取得的音响信号进行信号处理,从而推定音源方向;控制部,使用由多个布局信息中的预先选择的一布局信息示出的位置关系,在由所述翻译开始按键指示了翻译开始后,基于由所述音源方向推定部推定出的音源方向,确定发出语音的发言者是所述使用者及所述对话对手中的一者,且决定翻译方向,所述多个布局信息示出所述使用者、所述对话对手、及显示器的不同的位置关系,存储于存储部,所述翻译方向示出第1语言和与所述第1语言不同的第2语言中的识别所述音响信号的内容的一个语言和翻译所述音响信号的内容的另一个语言;翻译部,按照由所述控制部决定的所述翻译方向,取得使识别处理部以所述一个语言对所述音响信号进行识别所得的表示所述音响信号的内容的文本文,及使翻译处理部以另一个语言对该文本文进行翻译所得的表示所述音响信号的内容的翻译文本文;以及显示部,在所述显示器的与确定出的所述一者的位置对应的区域显示所述文本文,在所述显示器的与不同于所述一者的另一者的位置对应的区域显示所述翻译文本文。
通过该结构,使用者与其对话对手即使不在每次发言时进行按键操作,仅在翻译开始时按下翻译开始按键一次,也会根据使用者和对话对手的发言自动进行识别语言和翻译语言的切换。由此,能够提高操控性。另外,通过按照使用者和对话对手的发言自动进行识别语言和翻译语言的切换,从而使用者和对话对手不被按键操作中断对话,因此能够更自然地进行经由对话语音翻译装置的对话。
在这里,例如可以设为所述翻译部具有所述识别处理部和所述翻译处理部。
通过该结构,即使在不能通信或通信不稳定的环境下,使用者和对话对手也能够更自然地进行经由语音翻译装置的对话。
另外,例如,可以设为所述翻译部能够经由网络与服务器连接,所述服务器具有所述识别处理部和所述翻译处理部的至少一个。
通过该结构,能够实现语音翻译装置的小型化及轻量化。另外,通过该结构,能够使用识别性能及翻译性能逐渐提高的、云上的服务器具有的识别处理部和翻译处理部,能够对使用者及对话对手的发言内容进行更高精度的识别、翻译。因此,使用者和对话对手变得能够更自然地进行经由语音翻译装置的对话。
另外,例如可以设为,进一步具有:延迟部,使由所述麦克风阵列部取得的所述音响信号延迟一定时间;以及波束形成部,通过对已被所述延迟部延迟的所述音响信号进行信号处理,从而形成作为将收音的指向性控制为规定方向的音响信号的波束,所述波束形成部作为所述规定方向,在由所述音源方向推定部推定出的所述音源方向形成波束。
通过该结构,能够使通过波束形成部形成的波束朝向使用者或对话对手,因此能够降低周围噪声而对使用者或对话对手的发言进行收音。由此,即使在噪声水平高的环境下也能够使用。
另外,例如可以设为,进一步具有扬声器,所述翻译部进一步取得使文本合成处理部将所述翻译文本文转换为所述另一个语言的语音数据所得的翻译语音数据,传达给所述扬声器,所述扬声器按照传达到的所述翻译语音数据,对所述翻译文本文的语音进行发音。
由此,对于使用者和对话对手能够消除阅读意味着对方的发言内容的文字而进行对话的麻烦,能够进一步提高操作性。另外,使用者和对话对手仅使用语音就能够进行对话,能够更自然地进行经由语音翻译装置的对话。
另外,例如可以设为,所述显示器的形状是卡片状,所述显示部在所述一布局信息示出所述使用者和所述对话对手隔着所述显示器面对面的位置关系的情况下,以所述文本文与所述翻译文本文文字的朝向相反的方式,在所述显示器的对应的区域中显示所述文本文和所述翻译文本文。另外,可以设为所述显示器的形状是卡片状,所述显示部在所述一布局信息示出下述位置关系的情况下,以按直角旋转所述文本文和所述翻译文本文的文字的朝向所得的朝向,在所述显示器的对应的区域中显示所述文本文和所述翻译文本文,该位置关系是指将所述显示器作为中心,所述使用者位于面对所述显示器的第1边的位置,所述对话对手位于面对方向与所述第1边垂直的与所述第1边不同的第2边的位置。
由此,对于使用者及对话对手的各个,能够通过以正确的朝向表示发言内容的文字从而使其易于阅读。因此,使用者和对话对手能够更自然地进行经由语音翻译装置的对话。
另外,例如可以设为所述显示器的形状是卡片状,所述多个布局信息包含下述位置关系:所述使用者和所述对话对手隔着所述显示器面对面;相对于所述显示器的1条边,所述使用者及所述对话对手以所述使用者、所述对话对手的顺序或相反的顺序横向排列;及将所述显示器作为中心,所述使用者位于面对所述显示器的第1边的位置,所述对话对手位于面对方向与所述第1边垂直的与所述第1边不同的第2边的位置。
由此,能够根据使用者及对话对手的位置,通过以正确的朝向表示发言内容的文字从而使其易于阅读。因此,使用者和对话对手能够更自然地进行经由语音翻译装置的对话。
另外,例如可以设为进一步具有语音判定部,对由所述麦克风阵列部取得的所述音响信号是否包含语音进行判定,所述控制部,仅在由所述语音判定部判定出所述音响信号包含语音,且由所述音源方向推定部推定出的所述音源方向满足由所述一布局信息示出的所述使用者或所述对话对手的位置关系的情况下,决定所述翻译方向。
通过该结构,能够防止将非稳定的噪声作为语音识别的误检测,仅检测出使用者或对话对手的发言。因此,能够抑制由噪声产生的误动作,因此使用者和对话对手能够更自然地进行经由语音翻译装置的对话。
另外,例如可以设为进一步具有布局选择控制部,在所述翻译开始按键通过被所述使用者操作从而指示了翻译开始的情况下,将预先选择的所述一布局信息初始化,基于所述语音判定部的判定结果及所述音源方向推定部的推定结果,从存储于所述存储部的多个布局信息中选择一个布局信息作为所述一布局信息。
由此,即使在使用者和对话对手的位置关系与预先设定的位置关系不同的情况下,也能够以与使用者及对话对手的位置对应的发言内容的文字的正确的朝向进行显示,因此能够以对于使用者及对话对手易于阅读的方式进行显示。
在这里,例如,所述布局选择控制部在将预先选择的所述一布局信息初始化后,在由所述语音判定部第一次判定出所述音响信号包含语音时,将由所述音源方向推定部推定出的所述音源方向推定为所述使用者所在的方向,在所述使用者所在的方向的推定后,在由所述语音判定部判定出所述音响信号包含语音,且由所述音源方向推定部推定出的所述音源方向是与所述使用者所在的方向不同的方向时,将所述不同的方向决定为所述对话对手所在的方向,使用决定的所述使用者所在的方向和所述对话对手所在的方向,从多个布局信息中选择一个布局信息作为所述一布局信息。
另外,本公开的一个方式涉及的语音翻译方法是具有通过被使用者或所述使用者的对话对手操作从而指示翻译开始的翻译开始按键的语音翻译装置的语音翻译方法,所述语音翻译方法包含:音源方向推定步骤,通过对由麦克风阵列部取得的音响信号进行信号处理,从而推定音源方向;控制步骤,使用由多个布局信息中的预先选择的一布局信息示出的位置关系,在由所述翻译开始按键指示了翻译开始后,基于在所述音源方向推定步骤中推定出的音源方向,确定发出语音的发言者是所述使用者及所述对话对手中的一者,且决定翻译方向,所述多个布局信息示出所述使用者、所述使用者的对话对手、及显示器的不同的位置关系,存储于存储部,所述翻译方向示出第1语言和与所述第1语言不同的第2语言中的识别所述音响信号的内容的一个语言和翻译所述音响信号的内容的另一个语言;翻译步骤,按照在所述控制步骤中决定的所述翻译方向,取得使识别处理部以所述一个语言对所述音响信号进行识别所得的表示所述音响信号的内容的文本文,及使翻译处理部以另一个语言对该文本文进行翻译所得的表示所述音响信号的内容的翻译文本文;以及显示步骤,在所述显示器的与确定出的所述一者的位置对应的区域显示所述文本文,在所述显示器的与不同于所述一者的另一者的位置对应的区域显示所述翻译文本文。
由此,即使使用者与其对话对手不在每次开始发言时操作按键,而仅在翻译开始时按下翻译开始按键1次,就会根据使用者与对话对手的发言自动进行识别语言与翻译语言的切换。因此,能够提高操控性。另外,通过按照使用者与对话对手的发言自动进行识别语言与翻译语言的切换,从而使用者和对话对手不会被按键操作中断对话,因此能够更自然地进行经由语音翻译装置的对话。
另外,本公开的一个方式涉及的存储介质是存储有程序的非暂时性的能够由计算机读取的存储介质,所述程序执行具有通过被使用者或所述使用者的对话对手操作从而指示翻译开始的翻译开始按键的语音翻译装置的语音翻译方法,所述程序使计算机执行:音源方向推定步骤,通过对由麦克风阵列部取得的音响信号进行信号处理,从而推定音源方向;控制步骤,使用由多个布局信息中的预先选择的一布局信息示出的位置关系,在由所述翻译开始按键指示了翻译开始后,基于在所述音源方向推定步骤中推定出的音源方向,确定发出语音的发言者是所述使用者及所述对话对手中的一者,且决定翻译方向,所述多个布局信息示出所述使用者、所述使用者的对话对手、及显示器的不同的位置关系,存储于存储部,所述翻译方向示出第1语言和与所述第1语言不同的第2语言中的识别所述音响信号的内容的一个语言和翻译所述音响信号的内容的另一个语言;翻译步骤,按照在所述控制步骤中决定的所述翻译方向,取得使识别处理部以所述一个语言对所述音响信号进行识别所得的表示所述音响信号的内容的文本文,及使翻译处理部以另一个语言对该文本文进行翻译所得的表示所述音响信号的内容的翻译文本文;以及显示步骤,在所述显示器的与确定出的所述一者的位置对应的区域显示所述文本文,在所述显示器的与不同于所述一者的另一者的位置对应的区域显示所述翻译文本文。
由此,即使使用者与其对话对手不在每次开始发言时操作按键,而仅在翻译开始时按下翻译开始按键1次,就会根据使用者与对话对手的发言自动进行识别语言与翻译语言的切换。因此,能够提高操控性。另外,通过按照使用者与对话对手的发言自动进行识别语言与翻译语言的切换,从而使用者和对话对手不会被按键操作中断对话,因此能够更自然地进行经由语音翻译装置的对话。
此外,这些方式中的一部分具体的方式可以使用系统、方法、集成电路、计算机程序或能够由计算机读取的CD-ROM等存储介质而实现,也可以使用系统、方法、集成电路、计算机程序及存储介质的任意的组合实现。
下面,参照附图对本公开的一个方式涉及的语音翻译装置具体地进行说明。此外,在下面说明的实施方式,任一个都表示本公开的一个具体例。在下面的实施方式中示出的数值、形状、材料、结构要素、结构要素的配置位置等是一个例子,不旨在限定本公开。另外,将下面的实施方式中的结构要素中的未记载于表示最上位概念的独立权利要求中的结构要素,作为任意的结构要素进行说明。另外在所有实施方式中,也能够使各个内容进行组合。
(实施方式1)
《概要》
图1是表示实施方式1中的语音翻译装置100的外观和使用场景的一个例子的图。
语音翻译装置100是对以第1语言发言的使用者51与以第2语言发言的对话对手52之间的对话进行双向翻译的装置。即,语音翻译装置100是下述装置,即,在使用者51与其对话对手52的不同的2种语言间,识别由使用者51与其对话对手52发音的各自的语言,将发言内容翻译为彼此的对手的语言。这样的语音翻译装置100例如以像卡片一样的长方状的形状构成,由卡片型终端、智能手机及平板等便携终端实现。语音翻译装置100如图1所示,具有:麦克风阵列部200,具有由取得发言的多个麦克风构成的麦克风阵列;以及显示器300,将翻译结果作为文本进行显示。此外,显示器300以纵向或横向的状态使用。
在图1中示出了说第1语言的使用者51位于下侧,说第2语言的对话对手52位于上侧,纵向地使用语音翻译装置100而面对面地进行对话的例子。在本实施方式中,对于语音翻译装置100,仅通过在翻译开始时一次性按下翻译开始按键(未图示),就会根据使用者51与对话对手52的发言自动地进行识别语言与翻译语言的切换。
《装置结构》
图2是表示实施方式1中的语音翻译装置100的结构的一个例子的图。
语音翻译装置100如图2所示具有翻译开始指示部10、存储部11、音源方向推定部12、控制部13、翻译部14、显示部15。语音翻译装置100可以进一步具有麦克风阵列部200。即,语音翻译装置100不必须具有麦克风阵列部200。
[麦克风阵列部200]
麦克风阵列部200取得语音信号。更具体地说,麦克风阵列部200具有由彼此分离而配置的2个以上的麦克风单元构成的麦克风阵列,对声音进行收音,从收音得到的声音中取得已转换为电信号的音响信号。麦克风阵列部200将取得的音响信号输出至控制部13。此外,麦克风阵列部200也可以作为拾音器构成。在该情况下,麦克风阵列部200通过安装于语音翻译装置100而起作用。
此外,麦克风阵列部200需要在语音翻译装置100的周围,即需要以语音翻译装置100为中心在360度的方向上对人类的语音进行收音。另外,为了对人类的语音进行收音,只要能够对50Hz~7kHz的频带语音进行收音即可。因此,麦克风阵列部200优选不由1维排列的麦克风阵列而由2维排列的麦克风阵列构成。另外,2维排列的麦克风阵列优选由将麦克风单元之间设为一定距离以内地分离而排列的多个麦克风单元构成。
图3A~图3C分别是构成实施方式1中的麦克风阵列部200的麦克风阵列的实际安装例的说明图。
即,麦克风阵列部200可以如图3A所示,由多个麦克风单元排列为L字状所得的L字型的麦克风阵列201A构成。另外,麦克风阵列部200可以如图3B所示,由多个麦克风单元排列为圆状所得的圆排列型的麦克风阵列201B构成。麦克风阵列部200也可以由多个麦克风单元排列为圆弧状所得的圆弧排列型的麦克风阵列201C构成。
[翻译开始指示部10]
翻译开始指示部10通过被语音翻译装置100的使用者51或使用者51的对话对手52操作,从而对语音翻译装置100进行翻译开始的指示。在本实施方式中,翻译开始指示部10例如是翻译开始按键,如果通过按下翻译开始按键等操作翻译开始按键,则对语音翻译装置100进行翻译开始的指示。
[存储部11]
存储部11由HDD(硬盘驱动器:Hard Disk Drive)或存储器等构成。
在本实施方式中,存储部11存储有示出使用者51、对话对手52、及显示器300的不同的位置关系的多个布局信息。对于存储部11,预先选择了存储的多个布局信息中的一布局信息。
另外,存储部11存储将语音翻译装置100作为中心的坐标系和分别分配给分割区域的索引,该分割区域是分割将语音翻译装置100作为中心的区域所得的分割区域。
在这里,首先,对本实施方式中的多个布局信息的具体例进行说明。图4A~图4E分别是表示存储于实施方式1中的存储部11的布局信息的一个例子的图。
图4A所示的布局信息示出了纵向地且使用者51及对话对手52面对面地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,说第1语言的使用者51位于上下划分显示器300的中心线L1的下侧,说第2语言的对话对手52位于中心线L1的上侧,使用者51与对话对手52面对面。另外,图4A所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于纵向使用的语音翻译装置100的下侧的音源方向61,说第2语言的对话对手52位于上侧的音源方向62。这样,在图4A中示出了下述布局信息,该布局信息示出使用者51与对话对手52隔着显示器300面对面的位置关系。
图4B所示的布局信息示出了以使用者51位于左侧的横向排列纵向地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,说第1语言的使用者51位于左右划分显示器300的中心线L2的左侧,说第2语言的对话对手52位于中心线L2的右侧,使用者51与对话对手52横向排列于语音翻译装置100的下侧。另外,图4B所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于纵向地使用的语音翻译装置100的左下方的音源方向61,说第2语言的对话对手52位于右下方的音源方向62。同样地,图4C所示的布局信息示出了以使用者51位于右侧的横向排列纵向地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,说第1语言的使用者51位于左右划分显示器300的中心线L2的右侧,说第2语言的对话对手52位于中心线L2的左侧,使用者51与对话对手52横向排列于语音翻译装置100的下侧。另外,图4C所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于纵向地使用的语音翻译装置100的右下方的音源方向61,说第2语言的对话对手52位于左下方的音源方向62。这样,在图4B及图4C中示出了下述布局信息,该布局信息示出相对于显示器300的1条边,使用者51及对话对手52以使用者51、对话对手52的顺序或相反的顺序横向排列的位置关系。
图4D所示的布局信息示出了以从使用者51观察时对话对手52位于右侧的直角位置纵向地使用语音翻译装置100的情况下的位置关系。更具体地说示出下述位置关系,即,使用者51位于划分显示器300的右下斜线L3的左下侧即语音翻译装置100的下侧,对话对手52位于右下斜线L3的右上侧即语音翻译装置100的右侧,使用者51与对话对手52的位置呈直角位置。另外,图4D所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于纵向地使用的语音翻译装置100的下方的音源方向61,说第2语言的对话对手52位于右方的音源方向62。同样地,图4E所示的布局信息示出了以从使用者51观察时对话对手52位于左侧的直角位置纵向地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,使用者51位于划分显示器300的左下斜线L4的右下侧即语音翻译装置100的下侧,对话对手52位于左下斜线L4的左上侧即语音翻译装置100的左侧,使用者51与对话对手52的位置呈直角位置。另外,图4E所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于纵向地使用的语音翻译装置100的下方的音源方向61,说第2语言的对话对手52位于左方的音源方向62。这样,在图4D及图4E中示出了表示下述位置关系的布局信息,即,将显示器300作为中心,使用者51位于面对显示器300的第1边的位置,对话对手52位于面对与第1边方向垂直的不同于第1边的第2边的位置。
接下来,对本实施方式中的将语音翻译装置100作为中心的坐标系和分别分配给分割区域的索引进行说明,该分割区域是分割将语音翻译装置100作为中心的区域所得的分割区域。
图5是表示存储于实施方式1中的存储部11的坐标系和分割区域和分别分配给分割区域的索引的一个例子的图。
存储于存储部11的坐标系如图5所示,是将语音翻译装置100的中心作为原点的xy坐标系,是与显示器300的平面大致平行的平面中的xy坐标系。另外,存储于存储部11的分割区域是每隔一定角度对由xy坐标系的平面表示的区域进行分割所得的区域,分割区域分别分配有索引。即,存储部11与分割区域一起存储了分别分配给分割区域的索引。图5所示的分割区域是每隔30度对由xy坐标系的平面表示的区域进行分割所得的区域。在图5所示的分割区域中,从第1象限的与x轴接触的分割区域起逆时针地分配了A~L的索引。
此外,一定角度不限于30度。根据希望推定的音源方向的粒度以30度~180度为止适当决定即可。例如,在只要推定音源存在于纵向使用的语音翻译装置100的下侧或上侧即可的情况下,可以将一定角度设为180度。
[音源方向推定部12]
音源方向推定部12通过对由麦克风阵列部200取得的音响信号进行信号处理,从而推定音源方向。更具体地说,音源方向推定部12根据到达构成麦克风阵列部200的多个麦克风单元的各个的声音的到达时间差和多个麦克风单元的各个的位置坐标以及音速,推定音源方向。
[控制部13]
控制部13通过CPU(中央处理器:Central Processing Unit)、存储器等实现。在本实施方式中,控制部13在被翻译开始指示部10进行了翻译开始的指示时,基于存储于存储部11的预先选择的一布局信息等和由音源方向推定部12推定出的音源方向,对翻译部14和显示部15进行控制。更具体地说,控制部13使用预先选择的一布局信息所示的位置关系,在被翻译开始指示部10指示了翻译开始后,基于由音源方向推定部12推定出的音源方向,确定发出语音的发言者是使用者51及对话对手52中的一者。
在这里,对确定使用者51或对话对手52的方法进行说明。图6A~图6E是表示在纵向地使用实施方式1中的语音翻译装置100的情况下使用者51及对话对手52所在的分割区域的索引的图。
图6A是表示在预先选择的一布局信息是图4A所示的纵向地且使用者51及对话对手52面对面地使用语音翻译装置100的情况下使用者51及对话对手52所在的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图6A所示的索引I或J的情况下,根据由图4A所示的预先选择的一布局信息示出的位置关系,确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图6A所示的索引C或D的情况下,根据由图4A所示的预先选择的一布局信息示出的位置关系,确定发言者是对话对手52。
图6B是表示在预先选择的一布局信息是图4B所示的以使用者51处于左侧的横向排列纵向地使用语音翻译装置100的情况下使用者51及对话对手52所在的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图6B所示的索引H或I的情况下,根据由图4B所示的预先选择的一布局信息示出的位置关系,确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图6B所示的索引J或K的情况下,根据由图4B所示的预先选择的一布局信息示出的位置关系,确定发言者是对话对手52。
另外,图6C是表示在预先选择的一布局信息是图4C所示的以使用者51处于右侧的横向排列纵向地使用语音翻译装置100的情况下使用者51及对话对手52所在的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图6C所示的索引J或K的情况下,根据由图4C所示的预先选择的一布局信息示出的位置关系,确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图6C所示的索引H或I的情况下,根据由图4B所示的预先选择的一布局信息示出的位置关系,确定发言者是对话对手52。
另外,图6D是表示在预先选择的一布局信息是图4D所示的以从使用者51观察时对话对手52处于右侧的直角位置纵向地使用语音翻译装置100的情况下使用者51及对话对手52所在的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图6D所示的索引I或J的情况下,根据由图4D所示的预先选择的一布局信息示出的位置关系,确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图6D所示的索引A或L的情况下,根据由图4D所示的预先选择的一布局信息示出的位置关系,确定发言者是对话对手52。
另外,图6E是表示在预先选择的一布局信息是图4D所示的以从使用者51观察时对话对手52处于左侧的直角位置纵向地使用语音翻译装置100的情况下使用者51及对话对手52所在的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图6E所示的索引I或J的情况下,根据由图4E所示的预先选择的一布局信息示出的位置关系,确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图6E所示的索引F或G的情况下,根据由图4E所示的预先选择的一布局信息示出的位置关系,确定发言者是对话对手52。
另外,控制部13决定翻译方向,该翻译方向示出第1语言和与第1语言不同的第2语言中的识别音响信号的内容的一个语言和翻译音响信号的另一个语言。
更具体地说,控制部13在确定出发言者是使用者51的情况下,决定下述翻译方向,即,将识别音响信号的内容的语言(下面,也称作识别语言)设为第1语言,将翻译音响信号的内容的语言(下面,也称作翻译语言)设为第2语言。此外,控制部13在确定了发言者是使用者51的情况下,也可以决定方向是从第1语言向第2语言的翻译方向。另外,控制部13在确定出发言者是对话对手52的情况下,决定将识别语言设为第2语言而将翻译语言设为第1语言的翻译方向。控制部13按照决定的翻译方向对翻译部14进行控制。此外,控制部13在确定出发言者是对话对手52的情况下,也可以决定方向是从第2语言向第1语言的翻译方向。
另外,控制部13根据由预先选择的一布局信息示出的位置关系对显示部15进行控制,使其将以识别语言表示音响信号的内容的文本文与以翻译语言表示音响信号的内容的翻译文本文的文字的朝向显示为使用者51及对话对手52易于阅读的朝向。此外,控制部13也可以不对显示部15进行控制,而将确定出的是发言者的使用者51及对话对手52中的一者、决定的翻译方向、预先选择的一布局信息传达给显示部15。
[翻译部14]
翻译部14例如如图2所示具有识别处理部141和翻译处理部142。
<识别处理部141>
识别处理部141按照由控制部13决定的翻译方向,以第1语言及第2语言的一个语言即识别语言对音响信号的内容进行识别,生成表示音响信号的内容的文本文。例如,识别处理部141在由控制部13决定的翻译方向是将识别语言设为第1语言,将翻译语言设为第2语言的情况下,以第1语言对音响信号的内容进行识别,生成表示音响信号的内容的第1语言的文本文。另外,识别处理部141在由控制部13决定出的翻译方向是将识别语言设为第2语言,将翻译语言设为第1语言的情况下,以第2语言对音响信号的内容进行识别,生成表示音响信号的内容的第2语言的文本文。
此外,识别处理部141可以不由翻译部14具有,而由云等服务器具有。在该情况下,翻译部14只要能够经由网络与服务器连接,按照由控制部13决定出的翻译方向取得使识别处理部141以一个语言进行识别而得到的表示音响信号的内容的文本文即可。
<翻译处理部142>
翻译处理部142按照由控制部13决定出的翻译方向,以第1语言及第2语言的另一个语言即翻译语言对音响信号的内容进行翻译,生成表示音响信号的内容的翻译文本文。例如,翻译处理部142在由控制部13决定的翻译方向是将识别语言设为第1语言,将翻译语言设为第2语言的情况下,以第2语言对以第1语言识别出的表示音响信号的内容的文本文进行翻译,生成表示音响信号的内容的第2语言的翻译文本文。另外,翻译处理部142在由控制部13决定的翻译方向是将识别语言设为第2语言,将翻译语言设为第1语言的情况下,以第1语言对以第2语言识别出的表示音响信号的内容的文本文进行翻译,生成表示音响信号的内容的第1语言的翻译文本文。
此外,翻译处理部142可以不由翻译部14具有,而由云等服务器具有。在该情况下,翻译部14只要能够经由网络与服务器连接,按照由控制部13决定出的翻译方向,取得表示音响信号的内容的翻译文本文即可,该翻译文本文是使翻译处理部142以另一个语言对以一个语言生成的表示音响信号的内容的文本文进行翻译而得到的。
这样,翻译部14可以具有识别处理部141和翻译处理部142,也可以由云等服务器具有识别处理部141及翻译处理部142的至少一个。在由服务器具有识别处理部141及翻译处理部142的至少一个的情况下,翻译部14只要与识别处理部141及翻译处理部142的至少一个通过通信等连接即可。
[显示部15]
显示部15按照由预先选择的一布局信息示出的位置关系,决定画面布局和显示的文字的朝向,显示翻译部14所取得的文本文和翻译文本文。更具体地说,显示部15在显示器300的与由控制部13确定的一者的位置对应的区域显示文本文,在显示器300的与不同于一者的另一者的位置对应的区域显示翻译文本文。
在这里,对显示部15显示的显示器300的显示画面的一个例子进行说明。图7A~图7D是表示在纵向地使用实施方式1中的语音翻译装置100的情况下显示于显示器300的显示画面的一个例子的图。下面,设为第1语言是日语,第2语言是英语而进行说明。
在图7A中示出了在预先选择的一布局信息是图4A所示的纵向地且使用者51及对话对手52面对面地使用语音翻译装置100的情况下,识别语言是日语而翻译语言是英语时的显示画面的一个例子。在图7A中,在显示器300的下侧的区域显示“道案内をしましょうか?”的日语的文本文,在显示器300的上侧的区域显示“Can I help you find your way?”的英语的翻译文本文。并且,在图7A中,英语的翻译文本文以与日语的文本文的文字相反的朝向显示。
即,显示部15根据由如图4A所示的预先选择的一布局信息示出的位置关系,决定由上下分割显示器300的区域所得的第1语言侧的区域和第2语言侧的区域构成的画面布局。并且,显示部15在第1语言侧的区域显示日语,在第2语言侧的区域以文字的朝向与文本文相反的方式显示英语的翻译文本文的文字。这样,假设预先选择的一布局信息示出使用者51与对话对手52隔着显示器300面对面的位置关系。在该情况下,显示部15以文本文与翻译文本文的文字的朝向相反的方式,在显示器的对应的区域中显示文本文和翻译文本文。
在图7B中示出了在预先选择的一布局信息是如图4B及图4C所示的纵向地且使用者51及对话对手52横向排列地使用语音翻译装置100的情况下,识别语言是日语而翻译语言是英语时的显示画面的一个例子。在图7B中也在显示器300的下侧的区域显示“道案内をしましょうか?”的日语的文本文,在显示器300的上侧的区域显示“Can I help you findyour way?”的英语的翻译文本文。并且,在图7B中,英语的翻译文本文以与日语的文本文的文字相同的朝向显示。
即,显示部15根据由如图4B及图4C所示的预先选择的一布局信息示出的位置关系,决定由上下分割显示器300的区域所得的第1语言侧的区域和第2语言侧的区域构成的画面布局。并且,显示部15在第1语言侧的区域显示日语,在第2语言侧的区域以文字的朝向与文本文的文字相同的方式显示英语的翻译文本文的文字。这样,假设预先选择的一布局信息示出相对于显示器300的1条边,使用者51及对话对手52按照使用者51、对话对手52的顺序或相反的顺序横向排列的位置关系。在该情况下,显示部15以文本文与翻译文本文的文字的朝向相同的方式在显示器的对应的区域中显示文本文和翻译文本文。
在图7C中示出了在预先选择的一布局信息是图4D所示的以从使用者51观察时对话对手52处于右侧的直角位置纵向地使用语音翻译装置100的情况下,识别语言是日语而翻译语言是英语时的显示画面的一个例子。在图7C中也在显示器300的下侧的区域显示“道案内をしましょうか?”的日语的文本文,在显示器300的上侧的区域显示“Can I help youfind your way?”的英语的翻译文本文。并且,在图7C中,英语的翻译文本文的文字相对于日语的文本文的文字以向左旋转90度的朝向显示。
即,显示部15根据由如图4D所示的预先选择的一布局信息示出的位置关系,决定由上下分割显示器300的区域所得的第1语言侧的区域和第2语言侧的区域构成的画面布局。并且,显示部15在第1语言侧的区域显示日语,在第2语言侧的区域以将文本文的文字向左旋转90度所得的朝向显示英语的翻译文本文的文字。
另外,在图7D中示出了在预先选择的一布局信息是图4E所示的以从使用者51观察时对话对手52处于左侧的直角位置纵向地使用语音翻译装置100的情况下,识别语言是日语而翻译语言是英语时的显示画面的一个例子。在图7D中也在显示器300的下侧的区域显示“道案内をしましょうか?”的日语的文本文,在显示器300的上侧的区域显示“Can I helpyou find your way?”的英语的翻译文本文。并且,在图7D中,英语的翻译文本文的文字相对于日语的文本文的文字以向右旋转90度的朝向显示。
即,显示部15根据由如图4E所示的预先选择的一布局信息示出的位置关系,决定由上下分割显示器300的区域所得的第1语言侧的区域和第2语言侧的区域构成的画面布局。并且,显示部15在第1语言侧的区域显示日语的文本文,在第2语言侧的区域以将文本文的文字向右旋转90度所得的朝向显示英语的翻译文本文的文字。
如上所述,假设预先选择的一布局信息示出下述位置关系,即,将显示器300作为中心,使用者51位于面对显示器300的第1边的位置,对话对手52位于面对方向与第1边垂直的与第1边不同的第2边的位置。在该情况下,显示部15以按直角旋转文本文和翻译文本文的文字的朝向所得的朝向,在对应的显示器300的区域中显示文本文和翻译文本文。
此外,使用图7A~图7D对识别语言是日语而翻译语言是英语时的显示画面的一个例子进行了说明,但也可以识别语言是英语而翻译语言是日语。使用图8A及图8B对该情况的一个例子进行说明。
图8A及图8B是表示显示于实施方式1中的显示器300的显示画面的一个例子的图。图8A是与图7A相同的图因此省略说明。
在图8B中示出了在预先选择的一布局信息是图4A所示的纵向地且使用者51及对话对手52面对面地使用语音翻译装置100的情况下,识别语言是英语而翻译语言是日语时的显示画面的一个例子。除去翻译方向,图8B与图8A是相同的图,因此省略详细的说明。
[语音翻译装置100的动作]
对如上所述地构成的语音翻译装置100进行的动作处理进行说明。
图9是表示实施方式1中的语音翻译装置100进行的动作处理的流程图。
首先,语音翻译装置100根据由麦克风阵列部200取得的音响信号推定音源方向(S11)。更具体地说,语音翻译装置100通过对由麦克风阵列部200取得的音响信号进行信号处理,从而推定音源方向。
接下来,语音翻译装置100使用由预先选择的一布局信息示出的位置关系,基于在翻译开始的指示后推定出的音源方向确定发言者,且决定翻译方向(S12)。更具体地说,语音翻译装置100在被翻译开始按键指示了翻译开始后,基于在步骤S11中推定出的音源方向,确定发出语音的发言者是使用者51及对话对手52中的一者。在这里,语音翻译装置100使用由预先选择的一布局信息示出的位置关系确定发言者,该预先选择的一布局信息是示出使用者51、对话对手52、及显示器300的不同的位置关系的、存储于存储部11的多个布局信息中的布局信息。并且,语音翻译装置100根据确定出的发言者决定翻译方向,该翻译方向示出第1语言和与第1语言不同的第2语言中的,识别该音响信号的内容的一个语言即识别语言,和翻译该音响信号的内容的另一个语言即翻译语言。
接下来,对于语音翻译装置100,按照在步骤S12中决定的翻译方向,取得表示音响信号的内容的文本文,及对文本文进行翻译所得的翻译文本文(S13)。更具体地说,语音翻译装置100按照在步骤S12中决定的翻译方向,取得使识别处理部141以识别语言对音响信号进行识别所得的表示音响信号的内容的文本文。另外,语音翻译装置100按照在步骤S12中决定的翻译方向,取得使翻译处理部142以翻译语言对该文本文进行翻译所得的与音响信号的内容对应的翻译文本文。
接下来,语音翻译装置100在显示器300的与确定出的一者的位置对应的区域表示文本文,在显示器300的与另一者的位置对应的区域表示翻译文本文(S14)。更具体地说,语音翻译装置100在显示器300的与在步骤S13中确定出的一者的位置对应的区域表示文本文,在显示器300的与不同于一者的另一者的位置对应的区域显示翻译文本文。
[效果]
如上所述,根据本实施方式的语音翻译装置100,即使使用者51与其对话对手52不在每次开始发言时操作按键,而仅在翻译开始时按下翻译开始按键1次,就会根据使用者51与对话对手52的发言自动进行识别语言与翻译语言的切换。由此,能够提高操控性。另外,通过根据使用者51与对话对手52的发言自动进行识别语言与翻译语言的切换,从而使用者51和对话对手52不会被按键操作中断对话,因此能够更自然地进行经由语音翻译装置100的对话。
另外,根据本实施方式的语音翻译装置100,能够根据使用者51及对话对手52的位置,对于使用者51及对话对手52的各个,通过以正确的朝向表示发言内容的文字从而使其易于阅读。因此,使用者51和对话对手52能够更自然地进行经由语音翻译装置100的对话。
此外,可以在本实施方式的语音翻译装置100中使用云上的服务器所具有的识别处理部141和翻译处理部142。由此,语音翻译装置100不具有识别处理部141和翻译处理部142而具有简单的通信装置即可,因此能够实现小型化及轻量化。另外,本实施方式的语音翻译装置100能够通过使用识别性能及翻译性能逐渐提高的云上的服务器所具有的识别处理部141和翻译处理部142,从而更高精度地对使用者51及对话对手52的发言内容进行识别、翻译。因此,使用者51和对话对手52变得能够更自然地进行经由语音翻译装置100的对话。
在本实施方式的语音翻译装置100中也可以具有识别处理部141和翻译处理部142。在该情况下,即使在不能通信或通信不稳定的环境下也能够使用。由此,即使在不能通信或通信不稳定的环境下,使用者51和对话对手52也能够更自然地进行经由语音翻译装置100的对话。
另外,在实施方式1中,为了说明的简便,作为例子举出以纵向的状态使用语音翻译装置100的情况而进行了说明,但以横向的状态使用也是同样的。
下面,对以横向的状态使用语音翻译装置100的情况下的多个布局信息的具体例和确定使用者51或对话对手52的方法进行说明。
图10A~图10E分别是表示存储于实施方式1中的存储部11的布局信息的一个例子的图。
图10A所示的布局信息示出了横向地且使用者51及对话对手52面对面地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,说第1语言的使用者51位于上下划分显示器300的中心线L5的下侧,说第2语言的对话对手52位于中心线L5的上侧,使用者51与对话对手52面对面。另外,图10A所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于横向地使用的语音翻译装置100的下侧的音源方向61,说第2语言的对话对手52位于上侧的音源方向62。这样,在图10A中示出了下述布局信息,该布局信息示出使用者51和对话对手52隔着显示器300面对面的位置关系。
图10B所示的布局信息示出了以使用者51位于左侧的横向排列横向地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,说第1语言的使用者51位于左右划分显示器300的中心线L6的左侧,说第2语言的对话对手52位于中心线L6的右侧,使用者51与对话对手52横向排列于语音翻译装置100的下侧。另外,图10B所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于横向地使用的语音翻译装置100的左下方的音源方向61,说第2语言的对话对手52位于右下方的音源方向62。同样地,图10C所示的布局信息示出了以使用者51位于右侧的横向排列横向地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,说第1语言的使用者51位于左右划分显示器300的中心线L6的右侧,说第2语言的对话对手52位于中心线L6的左侧,使用者51与对话对手52横向排列于语音翻译装置100的下侧。另外,图10C所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于横向地使用的语音翻译装置100的右下方的音源方向61,说第2语言的对话对手52位于左下方的音源方向62。这样,在图10B及图10C中示出了下述布局信息,该布局信息示出相对于显示器300的1条边,使用者51及对话对手52按照使用者51、对话对手52的顺序或相反的顺序横向排列的位置关系。
另外,图10D所示的布局信息示出了以从使用者51观察时对话对手52处于右侧的直角位置横向地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,使用者51位于划分显示器300的右下斜线L7的左下侧即语音翻译装置100的下侧,对话对手52位于右下斜线L7的右上侧即语音翻译装置100的右侧,使用者51和对话对手52的位置呈直角位置。另外,图10D所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于横向地使用的语音翻译装置100的下方的音源方向61,说第2语言的对话对手52位于右方的音源方向62。同样地,图10E所示的布局信息示出了以从使用者51观察时对话对手52处于左侧的直角位置横向地使用语音翻译装置100的情况下的位置关系。更具体地说,示出了下述位置关系,即,使用者51位于划分显示器300的左下斜线L8的右下侧即语音翻译装置100的下侧,对话对手52位于左下斜线L8的左上侧即语音翻译装置100的左侧,使用者51与对话对手52的位置呈直角位置。另外,图10E所示的布局信息也可以示出下述位置关系,即,说第1语言的使用者51位于横向地使用的语音翻译装置100的下方的音源方向61,说第2语言的对话对手52位于左方的音源方向62。这样,在图10D及图10E中示出了表示下述位置关系的布局信息,即,将显示器300作为中心,使用者51位于面对显示器300的第1边的位置,对话对手52位于面对方向与第1边垂直的与第1边不同的第2边的位置。
图11A~图11E是表示在横向地使用实施方式1中的语音翻译装置100的情况下,使用者51及对话对手52所在的分割区域的索引的图。
图11A是表示在预先选择的一布局信息是图10A所示的横向地且使用者51及对话对手52面对面地使用语音翻译装置100的情况下,使用者51及对话对手52所处的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图11A所示的索引F或G的情况下,根据由图10A所示的预先选择的一布局信息示出的位置关系确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图11A所示的索引A或L的情况下,根据由图10A所示的预先选择的一布局信息示出的位置关系确定发言者是对话对手52。
图11B是表示在预先选择的一布局信息是图10B所示的以使用者51处于左侧的横向排列横向地使用语音翻译装置100的情况下,使用者51及对话对手52所处的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图11B所示的索引E或F的情况下,根据由图10B所示的预先选择的一布局信息示出的位置关系确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图11B所示的索引G或H的情况下,根据由图10B所示的预先选择的一布局信息示出的位置关系确定发言者是对话对手52。
另外,图11C是表示在预先选择的一布局信息是图10C所示的以使用者51处于右侧的横向排列横向地使用语音翻译装置100的情况下,使用者51及对话对手52所处的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图11C所示的索引G或H的情况下,根据由图10C所示的预先选择的一布局信息示出的位置关系确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图11C所示的索引E或F的情况下,根据由图10B所示的预先选择的一布局信息示出的位置关系确定发言者是对话对手52。
另外,图11D是表示在预先选择的一布局信息是图10D所示的以从使用者51观察时对话对手52处于右侧的直角位置横向地使用语音翻译装置100的情况下,使用者51及对话对手52所处的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图11D所示的索引F或G的情况下,根据由图10D所示的预先选择的一布局信息示出的位置关系确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图11D所示的索引I或J的情况下,根据由图10D所示的预先选择的一布局信息示出的位置关系确定发言者是对话对手52。
另外,图11E是表示在预先选择的一布局信息是图10D所示的以从使用者51观察时对话对手52处于左侧的直角位置横向地使用语音翻译装置100的情况下,使用者51及对话对手52所处的分割区域的索引的图。
即,控制部13在由音源方向推定部12推定出的音源方向是图11E所示的索引F或G的情况下,根据由图10E所示的预先选择的一布局信息示出的位置关系确定发言者是使用者51。控制部13在由音源方向推定部12推定出的音源方向是图11E所示的索引C或D的情况下,根据由图10E所示的预先选择的一布局信息示出的位置关系确定发言者是对话对手52。
接下来,对以横向的状态使用语音翻译装置100的情况下的显示部15显示的显示器300的显示画面的一个例子进行说明。
图12A~图12C是表示横向地使用实施方式1中的语音翻译装置100的情况下的显示于显示器300的显示画面的一个例子的图。下面,设为第1语言是日语,第2语言是英语而进行说明。
在图12A中示出了在预先选择的一布局信息是图10A所示的横向地且使用者51及对话对手52面对面地使用语音翻译装置100的情况下,识别语言是日语而翻译语言是英语时的显示画面的一个例子。在图12A中,在显示器300的左侧的区域显示“道案内をしましょうか?”的日语的文本文,在显示器300的右侧的区域显示“Can I help you find yourway?”的英语的翻译文本文。并且,在图12A中,英语的翻译文本文的文字以与日语的文本文的文字相反的朝向显示。
即,显示部15根据由如图10A所示的预先选择的一布局信息示出的位置关系,决定由左右分割显示器300的区域所得的第1语言侧的区域和第2语言侧的区域构成的画面布局。并且,显示部15在第1语言侧的区域显示日语,在第2语言侧的区域以文字的朝向与文本文的文字相反的方式显示英语的翻译文本文的文字。这样,假设预先选择的一布局信息示出使用者51与对话对手52隔着显示器300面对面的位置关系。在该情况下,显示部15以文本文与翻译文本文的文字的朝向相反的方式,在显示器的对应的区域中显示文本文和翻译文本文。
在图12B中示出了在预先选择的一布局信息是如图10B及图10C所示的横向地且使用者51及对话对手52横向排列地使用语音翻译装置100的情况下,识别语言是日语而翻译语言是英语时的显示画面的一个例子。在图12B中也在显示器300的左侧的区域显示“道案内をしましょうか?”的日语的文本文,在显示器300的右侧的区域显示“Can I help youfind your way?”的英语的翻译文本文。并且,在图12B中,英语的翻译文本文的文字以与日语的文本文的文字相同的朝向显示。
即,显示部15根据由如图10B及图10C所示的预先选择的一布局信息示出的位置关系,决定由左右分割显示器300的区域所得的第1语言侧的区域和第2语言侧的区域构成的画面布局。并且,显示部15在第1语言侧的区域显示日语的文本文,在第2语言侧的区域以文字的朝向与文本文的文字相同的方式显示英语的翻译文本文的文字。这样,假设预先选择的一布局信息示出相对于显示器300的1条边,使用者51及对话对手52按照使用者51、对话对手52的顺序或相反的顺序横向排列的位置关系。在该情况下,显示部15以文本文与翻译文本文的文字的朝向相同的方式在显示器的对应的区域中显示文本文和翻译文本文。
在图12C中示出了在预先选择的一布局信息是图10D所示的以从使用者51观察时对话对手52处于右侧的直角位置横向地使用语音翻译装置100的情况下,识别语言是日语而翻译语言是英语时的显示画面的一个例子。在图12C中也在显示器300的左侧的区域显示“道案内をしましょうか?”的日语的文本文,在显示器300的右侧的区域显示“Can I helpyou find your way?”的英语的翻译文本文。并且,在图12C中,英语的翻译文本文的文字相对于日语的文本文的文字以向左旋转90度的朝向显示。
即,显示部15根据由如图10D所示的预先选择的一布局信息示出的位置关系,决定由左右分割显示器300的区域所得的第1语言侧的区域和第2语言侧的区域构成的画面布局。并且,显示部15在第1语言侧的区域显示日语,在第2语言侧的区域以将文本文的文字向左旋转90度所得的朝向显示英语的翻译文本文的文字。
这样,假设预先选择的一布局信息示出下述位置关系,即,将显示器300作为中心,使用者51位于面对显示器300的第1边的位置,对话对手52位于面对方向与第1边垂直的与第1边不同的第2边的位置。在该情况下,显示部15以按直角旋转文本文和翻译文本文的文字的朝向所得的朝向,在显示器300的对应的区域中显示文本文和翻译文本文。
此外,使用图12A~图12C对识别语言是日语而翻译语言是英语时的显示画面的一个例子进行了说明,但也可以识别语言是英语而翻译语言是日语。
(变形例1)
图13是表示实施方式1的变形例1中的语音翻译装置100A的结构的一个例子的图。对与图2相同的要素标注相同的标号,省略详细的说明。
本变形例中的语音翻译装置100A相对于图2所示的语音翻译装置100,控制部13A的结构不同,追加了延迟部16和波束形成部17。下面,将与实施方式1的不同的点作为中心而进行说明。
[延迟部16]
延迟部16使由麦克风阵列部200取得的音响信号延迟一定时间。延迟部16将延迟了一定时间的音响信号输出至波束形成部17。此外,一定时间只要是音源方向推定部12进行方向推定所需的时间的量即可,是sec级的时间。
[波束形成部17]
波束形成部17通过对已被延迟部16延迟的音响信号进行信号处理,从而形成作为将收音的指向性控制为规定方向的音响信号的波束。在本变形例中,作为规定方向,在由音源方向推定部12推定出的音源方向上形成波束。
[控制部13A]
控制部13A在基于由音源方向推定部12推定出的音源方向确定出发言者是使用者51时,将波束形成部17的指向性控制为朝向音源方向61。另一方面,控制部13A在基于由音源方向推定部12推定出的音源方向推定出发言者是对话对手52时,将波束形成部17的指向性控制为朝向音源方向62。控制部13A的其他的功能与控制部13相同因此省略说明。
[效果]
如上所述,根据本变形例的语音翻译装置100A,能够使波束朝向使用者51或对话对手52,因此能够降低周围噪声而对使用者51或对话对手52的发言进行收音。由此,即使在噪声水平高的环境下也能够使用。更具体地说,根据本变形例的语音翻译装置100A,能够在确定出发言者是使用者51时,使波束形成部17的指向性朝向使用者51的方向而进行收音,在确定出发言者是对话对手52时使波束形成部17的指向性朝向对话对手52而进行收音。由此,能够去除来自发言者进行发言的音源方向以外的方向的噪声而进行收音,因此能够提高音响信号的识别精度。
(变形例2)
图14是表示实施方式1的变形例2中的语音翻译装置100C的结构的一个例子的图。对与图2相同的要素标注相同的标号,省略详细的说明。
本变形例中的语音翻译装置100C相对于图2所示的语音翻译装置100,控制部13B的结构不同,追加了语音判定部18。下面,将与实施方式1不同的点作为中心而进行说明。
[语音判定部18]
语音判定部18对由麦克风阵列部200取得的音响信号是否含有语音进行判定。更具体地说,语音判定部18对由麦克风阵列部200取得的音响信号是否示出了语音或语音以外的非语音进行判定。
[控制部13B]
控制部13B仅在由语音判定部18判定出音响信号包含语音且由音源方向推定部12推定出的音源方向满足由预先选择的一布局信息示出的使用者51或对话对手52的位置关系的情况下决定翻译方向。
此外,控制部13B的其他的功能与控制部13相同因此省略说明。
[效果]
如上所述,根据本变形例的语音翻译装置100B,能够防止将非稳定的噪声作为语音识别的误检测,仅检测出使用者51或对话对手52的发言。因此,能够抑制由噪声产生的误动作,因此使用者51和对话对手52能够更自然地进行经由语音翻译装置100B的对话。更具体地说,根据本变形例的语音翻译装置100B,能够使用仅示出使用者51或对话对手52的发言的的音响信号,因此能够使音响信号的识别精度及翻译精度提高。
(实施例)
上述的语音翻译装置100也可以是组合了变形例1的语音翻译装置100A及变形例2的语音翻译装置100B的语音翻译装置。将该情况下的具体的结构作为实施例中的语音翻译装置100C在下面进行说明。
《装置结构》
图15是表示实施方式1的实施例中的语音翻译装置100C的结构的一个例子的图。对与图2、图13及图14相同的要素标注相同的标号,省略详细的说明。
语音翻译装置100C相对于图2、图13及图14所示的语音翻译装置100等,翻译部14C的结构不同,追加DA转换部19及扬声器20,翻译开始指示部10作为翻译开始按键10a构成。另外,图15所示的麦克风阵列部200C相对于图2的麦克风阵列部200,在明示AD转换部202、明示麦克风阵列201这一点上结构不同。下面,将与实施方式1不同的点作为中心而进行说明。
[AD转换部202]
AD转换部202是模数转换部,在图15中标记为ADC。AD转换部202将通过麦克风阵列201取得的作为模拟信号的音响信号转换为作为数字信号的音响信号。AD转换部202将经过转换的音响信号输出至语音翻译装置100C。
[翻译开始按键10a]
翻译开始按键10a由按键或开关构成,如果被语音翻译装置100C的使用者51或对话对手52操作,则对语音翻译装置100C进行翻译开始的指示。
[控制部13C]
如果翻译开始按键10a被按下,则控制部13C根据语音判定部18的结果、音源方向推定部12的结果、及选择的布局信息,通过确定发言者从而决定波束形成部17的指向性的方向,决定是否使翻译部14进行翻译。更具体地说,控制部13C在由语音判定部18判定出音响信号包含语音,且由音源方向推定部12推定出的音源方向满足由预先选择的一布局信息示出的使用者51或对话对手52的位置关系的情况下,决定使翻译部14进行翻译。
另外,控制部13C在使翻译部14进行翻译的情况下,决定翻译方向,将决定的翻译方向传达给翻译部14。
此外,控制部13C在决定不使翻译部14进行翻译的情况下,不决定翻译方向,将该主旨传达给翻译部14即可。控制部13C的其他的功能与控制部13,13A,13B相同因此省略说明。
[翻译部14C]
翻译部14C进一步取得使文本合成处理部将翻译文本文转换为另一个语言的语音数据所得的翻译语音数据,传达给扬声器20。在本实施例中,翻译部14C具有第1语音识别部141A、第2语音识别部141B、第1文本翻译部142A、第2文本翻译部142B、第1文本合成部143A、第2文本合成部143B。另外,翻译部14C具有输入语言选择开关144、输出语言选择开关145、识别显示选择开关146、翻译显示选择开关147。
<识别处理部141>
第1语音识别部141A和第2语音识别部141B是识别处理部141的一个例子。在这里,识别处理部141按照由控制部13C决定的翻译方向,以第1语言及第2语言的一个语言即识别语言对音响信号的内容进行识别,生成表示音响信号的内容的文本文。
第1语音识别部141A进行第1语言的语音识别。更具体地说,第1语音识别部141A以第1语言识别经由输入语言选择开关144传达的,从波束形成部17输出的音响信号的内容。并且,第1语音识别部141A生成表示音响信号的内容的第1语言的文本文作为识别结果。
第2语音识别部141B进行第2语言的语音识别。更具体地说,第2语音识别部141B以第2语言识别经由输入语言选择开关144传达的,从波束形成部17输出的音响信号的内容。并且,第2语音识别部141B生成表示音响信号的内容的第2语言的文本文作为识别结果。
<翻译处理部142>
第1文本翻译部142A和第2文本翻译部142B是翻译处理部142的一个例子。在这里,翻译处理部142按照由控制部13C决定的翻译方向,以第1语言及第2语言的另一个语言即翻译语言翻译音响信号的内容,生成表示音响信号的内容的翻译文本文。
第1文本翻译部142A将第1语音识别部141A的输出数据翻译为第2语言。更具体地说,第1文本翻译部142A以第2语言翻译第1语音识别部141A生成的输出数据即表示音响信号的内容的第1语言的文本文,生成表示音响信号的内容的第2语言的翻译文本文。
第2文本翻译部142B将第2语音识别部141B的输出数据翻译为第1语言。更具体地说,第2文本翻译部142B以第1语言翻译第2语音识别部141B生成的输出数据即表示音响信号的内容的第2语言的文本文,生成表示音响信号的内容的第1语言的翻译文本文。
<文本合成处理部>
第1文本合成部143A和第2文本合成部143B是文本合成处理部的一个例子。在这里,文本合成处理部按照由控制部13C决定的翻译方向,将以翻译语言翻译出的翻译文本文转换为语音数据。
第1文本合成部143A将第1文本翻译部142A的输出数据转换为第2语言的语音数据。更具体地说,第1文本合成部143A将第1文本翻译部142A生成的输出数据即第2语言的翻译文本文转换为第2语言的语音数据。
第2文本合成部143B将第2文本翻译部142B的输出数据转换为第1语言的语音数据。更具体地说,第2文本合成部143B将第2文本翻译部142B生成的输出数据即第1语言的翻译文本文转换为第1语言的语音数据。
<输入语言选择开关144>
输入语言选择开关144按照由控制部13C传达的翻译方向,进行波束形成部17的输出的切换。例如,输入语言选择开关144在翻译方向是从第1语言到第2语言的方向,即在将识别语言设为第1语言、将翻译语言设为第2语言的情况下,倒向图15所示的A侧,将波束形成部17的输出传达给第1语音识别部141A。另外,例如,输入语言选择开关144在翻译方向是从第2语言到第1语言的方向,即在将识别语言设为第2语言、将翻译语言设为第1语言的情况下,倒向图15所示的B侧,将波束形成部17的输出传达给第2语音识别部141B。
此外,输入语言选择开关144在控制部13C决定不使翻译部14进行翻译的情况下,保持倒向图15所示的C侧的状态即中间状态。
<输出语言选择开关145>
输出语言选择开关145按照由控制部13C传达的翻译方向进行文本合成处理部的输出的切换。例如,输出语言选择开关145在翻译方向是从第1语言到第2语言的方向的情况下,倒向图15所示的A侧,选择第1文本合成部143A的输出即第2语言的语音数据,传达给DA转换部19。例如,输出语言选择开关145在翻译方向是从第2语言到第1语言的方向的情况下,倒向图15所示的B侧,选择第2文本合成部143B的输出即第1语言的语音数据,传达给DA转换部19。
此外,输出语言选择开关145在控制部13C决定不使翻译部14进行翻译的情况下,保持倒向图15所示的C侧的状态即中间状态。
<识别显示选择开关146>
识别显示选择开关146按照由控制部13C传达的翻译方向,进行识别处理部141的输出的切换。例如,识别显示选择开关146在在翻译方向是从第1语言到第2语言的方向的情况下,倒向图15所示的A侧,选择第1语音识别部141A的输出即第1语言的文本文,传达给显示部15。另外,例如,识别显示选择开关146在翻译方向是从第2语言到第1语言的方向的情况下,倒向图15所示的B侧,选择第2语音识别部141B的输出即第2语言的文本文,传达给显示部15。
此外,识别显示选择开关146在控制部13C决定不使翻译部14进行翻译的情况下,保持倒向图15所示的C侧的状态即中间状态。
<翻译显示选择开关147>
翻译显示选择开关147按照由控制部13C传达的翻译方向,进行翻译处理部142的输出的切换。例如,翻译显示选择开关147在翻译方向是从第1语言到第2语言的方向的情况下,倒向图15所示的A侧,选择第1文本翻译部142A的输出即第2语言的翻译文本文,传达给显示部15。另外,例如,翻译显示选择开关147在翻译方向是从第2语言到第1语言的方向的情况下,倒向图15所示的B侧,选择第2文本翻译部142B的输出即第1语言的翻译文本文,传达给显示部15。
此外,翻译显示选择开关147在控制部13C决定不使翻译部14进行翻译的情况下,保持倒向图15所示的C侧的状态即中间状态。
[DA转换部19]
DA转换部19是数模转换部,在图15中标记为DAC。DA转换部19将从翻译部14C输出的作为数字信号的语音信号,转换为作为模拟信号的语音信号。DA转换部19将经过转换的语音信号输出至扬声器20。
[扬声器20]
扬声器20按照传达到的翻译语音数据,对翻译文本文的语音进行发音。在本实施例中,扬声器20播放由DA转换部19输入的翻译文本文的语音信号而发音。
[语音翻译装置100C的动作]
对如上所述地构成的语音翻译装置100C进行的动作处理进行说明。
图16是表示实施方式1的实施例中的语音翻译装置100C进行的动作处理的流程图。在这里,将预先选择的布局信息设为示出在如图4A所示,纵向地且使用者51及对话对手52面对面地使用语音翻译装置100C的情况下的位置关系而进行说明。另外,在这里也设为第1语言是日语,第2语言是英语而进行说明。
首先,在使用语音翻译装置100C前,图4A所示的布局信息被使用者51或对话对手52从存储于存储部11的多个布局信息中作为一布局信息选择。于是,语音翻译装置100C从存储部11读取出以选择信号SEL指定的,由使用者51或对话对手52选择的一布局信息(S101),通知给控制部13C。并且,语音翻译装置100C将画面布局的模式指示给显示部15(S102)。在本实施例中,语音翻译装置100C将符合选择出的一布局信息的图7A所示的画面布局指定给显示部15一布局信息。由此,语音翻译装置100C能够使显示部15在第1语言侧的区域显示日语的文本文,在第2语言侧的区域以文字的朝向与文本文相反的方式显示英语的翻译文本文的文字。
接下来,假设使用者51或对话对手52按下翻译开始按键10a(S103)。于是,翻译开始按键10a对语音翻译装置100C进行翻译开始的指示。
接下来,如果语音翻译装置100C接受翻译开始的指示,则对是否判定出语音进行确认(S104),在判定出语音的情况下(S104中“是”),对是否已推定出音源方向进行确认(S105)。语音翻译装置100C在已推定出音源方向的情况下(S105中“是”),对推定出的音源方向是否与读入的布局信息示出的位置关系一致进行判定(S106)。
在步骤S106中,在推定出的音源方向与读入的布局信息示出的位置关系一致的情况下(S106中“是”),语音翻译装置100根据该布局信息和音源方向对输入语言选择开关144等进行切换(S107)。具体地说,语音翻译装置100C在检测出的音源方向与读入的布局信息示出的位置关系一致的情况下,根据决定出的翻译方向,将输入语言选择开关144等向图15所示的A侧或B侧推倒。
并且,语音翻译装置100C基于在步骤S105中推定的音源方向,决定指向性的方向,变更波束形成部17的参数而控制指向性(S108)。
例如,如果使用图16的结构进行说明,则在翻译开始按键10a被按下而使用者51进行了发言的情况下,发言语音输入至麦克风阵列201,由AD转换部202转换为作为数字信号的音响信号。从AD转换部202输出的音响信号输入至音源方向推定部12、延迟部16及语音判定部18。延迟部16使音响信号延迟音源方向推定部12进行方向推定所需的时间的量而输出至波束形成部17。另外,语音判定部18通过对语音和语音以外的非语音进行判定,从而对输入的音响信号是否表示语音进行判定。音源方向推定部12根据输入的音响信号推定音源方向。如果对音源方向进行了推定则将推定出的音源方向输出至控制部13,如果未推定则输出未推定音源方向的主旨。对于控制部13C,在由语音判定部18判定为语音,且在音源方向推定部12中音源方向是图6A所示的索引I或J的情况下,确定发言者是使用者51,决定作为从日语向英语的方向的翻译方向。
这样,语音翻译装置100C按照在步骤S107中决定的翻译方向,取得表示音响信号的内容的文本文及对文本文进行翻译所得的翻译文本文。并且,语音翻译装置100C在第1语言侧的区域显示日语的文本文,在第2语言侧的区域以文字的朝向与文本文相反的方式显示英语的翻译文本文的文字。
此外,在下述情况下前进至步骤S109,即,在步骤S106中未判定出语音(S104中“否”);在步骤S105中未对音源方向进行推定(S105中“否”);及在步骤S107中检测出的音源方向与读入的布局信息示出的位置关系不一致(S106是“否”)。
在步骤S109中,语音翻译装置100C将输入语言选择开关144等设定为中间状态。由此,语音翻译装置100C使显示部15显示等待输入的状态,不仅能够抑制意义不明的显示,而且无需对噪声等表示非语音的音响信号进行翻译处理,因此能够实现省电化。
[效果]
如上所述,根据本实施例的语音翻译装置100C,能够使波束朝向使用者51或对话对手52,因此能够降低周围噪声而对使用者51或对话对手52的发言进行收音。由此,即使在噪声水平高的环境下也能够使用。更具体地说,根据本实施例的语音翻译装置100C,能够在确定出发言者是使用者51时,使波束形成部17的指向性朝向使用者51的方向而进行收音,在确定出发言者是对话对手52时,使波束形成部17的指向性朝向对话对手52而进行收音。由此,能够去除来自发言者进行发言的音源方向以外的方向的噪声,使音响信号的识别精度提高。
另外,根据本实施例的语音翻译装置100C,对于使用者51和对话对手52,对方的发言内容被翻译为对方侧的语言以语音输出,因此对于使用者51和对话对手52,能够消除阅读意味着对方的发言内容的文字而进行对话的麻烦,能够进一步提高操作性。由此,使用者51和对话对手52仅使用语音就能够进行对话,能够更自然地进行经由语音翻译装置100C的对话。
(实施方式2)
在实施方式1中,将一布局信息设为预先选择的、固定的而进行了说明,但不限于此。也可以在使用者51及对话对手52的位置与预先选择的一布局信息示出的位置关系不同的情况下,再次选择其他的布局信息。下面,将与实施方式1等不同的部分作为中心而进行说明。
图17是表示实施方式2中的语音翻译装置100D的结构的一个例子的图。对与图15相同的要素标注相同的标号,省略详细的说明。
本实施方式中的语音翻译装置100D相对于实施方式1的实施例涉及的语音翻译装置100C,在追加了布局选择控制部21这一点上结构不同。其他的结构进行如实施方式1的实施例所说明的动作。
[布局选择控制部21]
布局选择控制部21在翻译开始按键10a通过被使用者51操作从而指示了翻译开始的情况下,将预先选择的一布局信息初始化。并且,布局选择控制部21基于语音判定部18的判定结果及音源方向推定部12的推定结果,从存储于存储部11的多个布局信息中选择一个布局信息作为一布局信息。
更具体地说,布局选择控制部21在将预先选择的一布局信息初始化后,在由语音判定部18第一次判定出音响信号包含语音时,将由音源方向推定部12推定出的音源方向推定为使用者51所在的方向。布局选择控制部21在使用者51所在的方向的推定之后,在由语音判定部18判定出音响信号包含语音,且由音源方向推定部12推定出的音源方向是与使用者51所在的方向不同的方向时,将该不同的方向决定为对话对手52所在的方向。并且,布局选择控制部21使用决定的使用者51所在的方向和对话对手52所在的方向,从多个布局信息中选择一个布局信息作为一布局信息。
即,在本实施方式中将下述条件作为前提,即,已知使用语音翻译装置100D的方向;翻译开始按键10a的按下等操作由使用者51进行;且使用者51第一个进行发言。在该情况下,如果翻译开始按键10a被按下,语音判定部18第一次判定出音响信号包含语音,则布局选择控制部21能够使用音源方向推定部12根据该音响信号推定出的音源方向决定使用者51的方向。另外,布局选择控制部21能够在表示第2次发言的语音的音响信号被判定出,且推定出的音源方向来自使用者51以外的方向的情况下,决定对话对手52的方向。由此,布局选择控制部21从存储于存储部11的多个布局信息中,重新选择示出与决定的使用者51的方向和对话对手52的方向一致的位置关系的布局信息。
[语音翻译装置100D的动作]
对如上所述地构成的语音翻译装置100D进行的动作处理进行说明。
图18是表示实施方式2中的语音翻译装置100D进行的动作处理的流程图。
首先,在语音翻译装置100D中通过使用者51选择了预定使用的一布局信息。因此,语音翻译装置100D从存储部11读入以选择信号SEL指定的,由使用者51选择的一布局信息(S201),通知给控制部13C。此外,使用者51也可以一布局信息仅预先设定使用语音翻译装置100D的朝向(纵向,横向)而不是一布局信息。
在该状态下,语音翻译装置100即布局选择控制部21对是否由使用者51按下了翻译开始按键10a进行着确认(S202)。
如果布局选择控制部21确认由使用者51按下了翻译开始按键10a(S202中“是”),则对是否已判定出语音进行确认(S203)。布局选择控制部21在已判定出语音的情况下(S203中“是”),对是否已推定出音源方向进行确认(S204)。布局选择控制部21在已推定出音源方向的情况下(S204中“是”),在翻译开始的指示后,对是否是第一个推定出的音源方向进行判定(S205)。此外在下述情况下返回至步骤S203,即,在步骤S203中未判定出语音(S203中“否”);及在步骤S204中未推定音源方向(S204中“否”)。
在步骤S205中,在翻译开始的指示后,在是第一个推定出的音源方向的情况下(S205中“是”),布局选择控制部21根据该音源方向,决定使用者51即第1语言的发言者的方向(S206),前进至步骤S203。
另一方面,在步骤S205中,在翻译开始的指示后,在不是第一个推定出的音源方向的情况下(S205中“否”),布局选择控制部21对是否未决定对话对手52即第2语言的发言者的方向进行确认(S207)。布局选择控制部21对在步骤S204中推定出的音源方向是否与第1语言的发言者(即使用者51)不同进行判定(S208)。并且,布局选择控制部21在步骤S207中推定出的音源方向与第1语言的发言者(即使用者51)不同的情况下(S208中“是”),根据在步骤S204中推定出的音源方向决定第2语言的发言者(对话对手52)的方向(S209)。此外,在下述情况下返回至步骤S203,即,在步骤S207中,未决定第2语言的发言者的方向(S207中“否”);及在步骤S208中,在步骤S207中推定出的音源方向与第1语言的发言者(即使用者51)相同。
接下来,在步骤S210中,布局选择控制部21按照在步骤S206中决定的第1语言的发言者(即使用者51),和在步骤S209中决定的第2语言的发言者(即对话对手52),选择布局信息(S210)。更具体地说,布局选择控制部21重新从存储于存储部11的多个布局信息中,选择示出与决定的使用者51的方向和对话对手52的方向一致的位置关系的布局信息。于是,语音翻译装置100D从存储部11读入重新选择的一布局信息,通知给控制部13C。
并且,语音翻译装置100D向显示部15指示与重新选择的一布局信息对应的画面布局的模式(S211)。
[效果]
如上所述,根据本实施例的语音翻译装置100D,即使在使用者51和对话对手52的位置关系与预先设定的位置关系不同的情况下,也能够以与使用者51及对话对手52的位置对应的发言内容的文字的正确的朝向进行显示,因此,能够以对于使用者51及对话对手52易于阅读的方式进行显示。由此,能够进一步提高操作性。
上面,基于实施方式及变形例对本公开的一个或多个方式涉及的语音翻译装置等进行了说明,但本公开并不限定于这些实施方式等。只要不脱离本公开的主旨,则将本领域技术人员想到的各种变形实施于本实施方式的形态、对不同的实施方式中的结构要素进行组合而构筑的形态也可以包含于本公开的一个或多个方式的范围内。例如,下述的情况也包含于本公开。
(1)构成上述的语音翻译装置100、100A~100D的具有识别处理部141及翻译处理部142的翻译部14的识别处理及翻译处理也可以在云上进行。在该情况下,识别处理部141及翻译处理部142与云进行通信,将对象数据发送至云,取得经过识别处理及翻译处理的数据即可。同样地,构成上述的语音翻译装置100C、100D的文本合成处理部的文本合成处理也可以在云上进行。在该情况下,文本合成处理部进行与云的通信,将对象数据即翻译文本文发送至云,取得将翻译文本文转换为语音数据所得的数据即可。
(2)对于上述的语音翻译装置等,作为说不同的语言的2人的发言者用于实现想法的沟通的工具进行使用,作为交替地进行将一个发言者的语音翻译为另一个发言者的语言而进行了说明,但不限于此。也可以将上述的语音翻译装置等作为说2个以上的不同的语言的多个发言者用于实现想法的沟通的工具进行使用。在该情况下,语音翻译装置识别多个发言者中的一个发言者发言的语言,将已识别的语言的发言内容翻译为多个其他的发言者的1个以上的不同的语言即可。并且,在围绕显示器300的多个其他的发言者所在的区域显示已翻译的语言的翻译文本文,在该一个发言者所在的区域显示已识别的语言的文本文即可。
(3)上述的语音翻译装置等,具体地说,可以是由微型处理器、ROM、RAM、硬盘单元、显示器单元、键盘、鼠标等构成的计算机系统。在所述RAM或硬盘单元存储有计算机程序。所述微型处理器按照所述计算机程序动作,从而各结构要素达成其功能。在这里计算机程序是为了达成规定的功能,对多个表示对于计算机的指令的命令代码进行组合而构成的。
(4)也可以将构成上述的语音翻译装置等的结构要素的一部分或全部,设为由1个系统LSI(Large Scale Integration:大规模集成电路)构成。系统LSI是将多个构成部集成于1个芯片上而制造的超多功能LSI,具体地说,是包含微型处理器、ROM、RAM等而构成的计算机系统。在所述RAM中存储有计算机程序。所述微型处理器按照所述计算机程序动作,从而系统LSI达成其功能。
(5)也可以将构成上述的语音翻译装置等的结构要素的一部分或全部设为由在各装置可拆卸的IC卡或单体的模块构成。所述IC卡或所述模块是由微型处理器、ROM、RAM等构成的计算机系统。所述IC卡或所述模块可以包含上述的超多功能LSI。微型处理器按照计算机程序动作,从而所述IC卡或所述模块达成其功能。该IC卡或该模块可以具有防篡改性。
工业上的利用可能性
本公开能够利用于作为说不同的语言的发言者用于实现想法的沟通的工具使用的语音翻译装置、语音翻译方法及其存储介质。

Claims (13)

1.一种语音翻译装置,具有:
翻译开始按键,通过被所述语音翻译装置的使用者或所述使用者的对话对手操作从而指示翻译开始;
音源方向推定部,通过对由麦克风阵列部取得的音响信号进行信号处理,从而推定音源方向;
控制部,使用由多个布局信息中的预先选择的一布局信息示出的位置关系,在由所述翻译开始按键指示了翻译开始后,基于由所述音源方向推定部推定出的音源方向,确定发出语音的发言者是所述使用者及所述对话对手中的一者,且决定翻译方向,所述多个布局信息示出所述使用者、所述对话对手、及显示器的不同的位置关系,且存储于存储部,所述翻译方向示出第1语言和与所述第1语言不同的第2语言中的识别所述音响信号的内容的一个语言和翻译所述音响信号的内容的另一个语言;
翻译部,按照由所述控制部决定的所述翻译方向,取得使识别处理部以所述一个语言对所述音响信号进行识别所得的表示所述音响信号的内容的文本文,及使翻译处理部以另一个语言对该文本文进行翻译所得的表示所述音响信号的内容的翻译文本文;以及
显示部,在所述显示器的与确定出的所述一者的位置对应的区域显示所述文本文,在所述显示器的与不同于所述一者的另一者的位置对应的区域显示所述翻译文本文。
2.如权利要求1所述的语音翻译装置,其中,
所述翻译部具有所述识别处理部和所述翻译处理部。
3.如权利要求1所述的语音翻译装置,其中,
所述翻译部能够经由网络与服务器连接,
所述服务器具有所述识别处理部和所述翻译处理部的至少一个。
4.如权利要求1所述的语音翻译装置,进一步具有:
延迟部,使由所述麦克风阵列部取得的所述音响信号延迟一定时间;以及
波束形成部,通过对已被所述延迟部延迟的所述音响信号进行信号处理,从而形成作为将收音的指向性控制为规定方向的音响信号的波束,
所述波束形成部作为所述规定方向,在由所述音源方向推定部推定出的所述音源方向形成波束。
5.如权利要求1~4中任一项所述的语音翻译装置,其中,
进一步具有扬声器,
所述翻译部进一步取得使文本合成处理部将所述翻译文本文转换为所述另一个语言的语音数据所得的翻译语音数据,传达给所述扬声器,
所述扬声器按照传达到的所述翻译语音数据,对所述翻译文本文的语音进行发音。
6.如权利要求1~4中任一项所述的语音翻译装置,其中,
所述显示器的形状是卡片状,
所述显示部在所述一布局信息示出所述使用者和所述对话对手隔着所述显示器面对面的位置关系的情况下,以所述文本文与所述翻译文本文文字的朝向相反的方式,在所述显示器的对应的区域中显示所述文本文和所述翻译文本文。
7.如权利要求1~4中任一项所述的语音翻译装置,其中,
所述显示器的形状是卡片状,
所述显示部在所述一布局信息示出下述位置关系的情况下,以按直角旋转所述文本文和所述翻译文本文的文字的朝向所得的朝向,在所述显示器的对应的区域中显示所述文本文和所述翻译文本文,该位置关系是指将所述显示器作为中心,所述使用者位于面对所述显示器的第1边的位置,所述对话对手位于面对方向与所述第1边垂直的与所述第1边不同的第2边的位置。
8.如权利要求1~4中任一项所述的语音翻译装置,其中,
所述显示器的形状是卡片状,
所述多个布局信息包含下述位置关系:所述使用者和所述对话对手隔着所述显示器面对面;相对于所述显示器的1条边,所述使用者及所述对话对手以所述使用者、所述对话对手的顺序或相反的顺序横向排列;及将所述显示器作为中心,所述使用者位于面对所述显示器的第1边的位置,所述对话对手位于面对方向与所述第1边垂直的与所述第1边不同的第2边的位置。
9.如权利要求1~4中任一项所述的语音翻译装置,其中,
进一步具有语音判定部,对由所述麦克风阵列部取得的所述音响信号是否包含语音进行判定,
所述控制部,仅在由所述语音判定部判定出所述音响信号包含语音,且由所述音源方向推定部推定出的所述音源方向满足由所述一布局信息示出的所述使用者或所述对话对手的位置关系的情况下,决定所述翻译方向。
10.如权利要求9所述的语音翻译装置,其中,
进一步具有布局选择控制部,在所述翻译开始按键通过被所述使用者操作从而指示了翻译开始的情况下,将预先选择的所述一布局信息初始化,基于所述语音判定部的判定结果及所述音源方向推定部的推定结果,从存储于所述存储部的多个布局信息中选择一个布局信息作为所述一布局信息。
11.如权利要求10所述的语音翻译装置,其中,
所述布局选择控制部在将预先选择的所述一布局信息初始化后,在由所述语音判定部第一次判定出所述音响信号包含语音时,将由所述音源方向推定部推定出的所述音源方向推定为所述使用者所在的方向,在所述使用者所在的方向的推定后,在由所述语音判定部判定出所述音响信号包含语音,且由所述音源方向推定部推定出的所述音源方向是与所述使用者所在的方向不同的方向时,将所述不同的方向决定为所述对话对手所在的方向,使用决定的所述使用者所在的方向和所述对话对手所在的方向,从多个布局信息中选择一个布局信息作为所述一布局信息。
12.一种语音翻译方法,
所述语音翻译方法是具有通过被使用者或所述使用者的对话对手操作从而指示翻译开始的翻译开始按键的语音翻译装置的语音翻译方法,
所述语音翻译方法包含:
音源方向推定步骤,通过对由麦克风阵列部取得的音响信号进行信号处理,从而推定音源方向;
控制步骤,使用由多个布局信息中的预先选择的一布局信息示出的位置关系,在由所述翻译开始按键指示了翻译开始后,基于在所述音源方向推定步骤中推定出的音源方向,确定发出语音的发言者是所述使用者及所述对话对手中的一者,且决定翻译方向,所述多个布局信息示出所述使用者、所述使用者的对话对手、及显示器的不同的位置关系,且存储于存储部,所述翻译方向示出第1语言和与所述第1语言不同的第2语言中的识别所述音响信号的内容的一个语言和翻译所述音响信号的内容的另一个语言;
翻译步骤,按照在所述控制步骤中决定的所述翻译方向,取得使识别处理部以所述一个语言对所述音响信号进行识别所得的表示所述音响信号的内容的文本文,及使翻译处理部以另一个语言对该文本文进行翻译所得的表示所述音响信号的内容的翻译文本文;以及
显示步骤,在所述显示器的与确定出的所述一者的位置对应的区域显示所述文本文,在所述显示器的与不同于所述一者的另一者的位置对应的区域显示所述翻译文本文。
13.一种存储介质,
所述存储介质是存储有程序的非暂时性的能够由计算机读取的存储介质,所述程序执行具有通过被使用者或所述使用者的对话对手操作从而指示翻译开始的翻译开始按键的语音翻译装置的语音翻译方法,
所述程序使计算机执行:
音源方向推定步骤,通过对由麦克风阵列部取得的音响信号进行信号处理,从而推定音源方向;
控制步骤,使用由多个布局信息中的预先选择的一布局信息示出的位置关系,在由所述翻译开始按键指示了翻译开始后,基于在所述音源方向推定步骤中推定出的音源方向,确定发出语音的发言者是所述使用者及所述对话对手中的一者,且决定翻译方向,所述多个布局信息示出所述使用者、所述使用者的对话对手、及显示器的不同的位置关系,且存储于存储部,所述翻译方向示出第1语言和与所述第1语言不同的第2语言中的识别所述音响信号的内容的一个语言和翻译所述音响信号的内容的另一个语言;
翻译步骤,按照在所述控制步骤中决定的所述翻译方向,取得使识别处理部以所述一个语言对所述音响信号进行识别所得的表示所述音响信号的内容的文本文,及使翻译处理部以另一个语言对该文本文进行翻译所得的表示所述音响信号的内容的翻译文本文;以及
显示步骤,在所述显示器的与确定出的所述一者的位置对应的区域显示所述文本文,在所述显示器的与不同于所述一者的另一者的位置对应的区域显示所述翻译文本文。
CN201910231944.2A 2018-03-29 2019-03-26 语音翻译装置、语音翻译方法及其存储介质 Pending CN110322881A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862649904P 2018-03-29 2018-03-29
US62/649904 2018-03-29
JP2018-230066 2018-12-07
JP2018230066A JP7171402B2 (ja) 2018-03-29 2018-12-07 音声翻訳装置、音声翻訳方法及びそのプログラム

Publications (1)

Publication Number Publication Date
CN110322881A true CN110322881A (zh) 2019-10-11

Family

ID=68057174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910231944.2A Pending CN110322881A (zh) 2018-03-29 2019-03-26 语音翻译装置、语音翻译方法及其存储介质

Country Status (2)

Country Link
US (1) US11182567B2 (zh)
CN (1) CN110322881A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322881A (zh) * 2018-03-29 2019-10-11 松下电器产业株式会社 语音翻译装置、语音翻译方法及其存储介质
CN111046680B (zh) 2018-10-15 2022-05-24 华为技术有限公司 一种翻译方法及电子设备
JP7109349B2 (ja) * 2018-12-04 2022-07-29 富士通株式会社 発話検出プログラム、発話検出方法、および発話検出装置
US20230021300A9 (en) * 2019-08-13 2023-01-19 wordly, Inc. System and method using cloud structures in real time speech and translation involving multiple languages, context setting, and transcripting features

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294076A1 (en) * 2005-12-12 2007-12-20 John Shore Language translation using a hybrid network of human and machine translators
US20090125295A1 (en) * 2007-11-09 2009-05-14 William Drewes Voice auto-translation of multi-lingual telephone calls
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
CN103299361A (zh) * 2010-08-05 2013-09-11 谷歌公司 翻译语言
US20150154957A1 (en) * 2013-11-29 2015-06-04 Honda Motor Co., Ltd. Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus
CN105389099A (zh) * 2014-08-29 2016-03-09 三星电子株式会社 用于语音记录和回放的方法和设备
CN106653002A (zh) * 2016-12-15 2017-05-10 咪咕数字传媒有限公司 一种文字直播方法及平台
CN106919559A (zh) * 2015-12-25 2017-07-04 松下知识产权经营株式会社 机器翻译方法以及机器翻译系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3933449B2 (ja) * 2001-11-22 2007-06-20 株式会社東芝 コミュニケーション支援装置
JP3891023B2 (ja) 2002-04-01 2007-03-07 日本電気株式会社 通訳システム及びプログラム
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8401178B2 (en) * 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
US8654952B2 (en) * 2009-08-20 2014-02-18 T-Mobile Usa, Inc. Shareable applications on telecommunications devices
US20120089392A1 (en) * 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
US20120310622A1 (en) * 2011-06-02 2012-12-06 Ortsbo, Inc. Inter-language Communication Devices and Methods
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
US9292498B2 (en) * 2012-03-21 2016-03-22 Paypal, Inc. Device orientation based translation system
US9721587B2 (en) * 2013-01-24 2017-08-01 Microsoft Technology Licensing, Llc Visual feedback for speech recognition system
US20150154960A1 (en) * 2013-12-02 2015-06-04 Cisco Technology, Inc. System and associated methodology for selecting meeting users based on speech
US20150256873A1 (en) * 2014-03-04 2015-09-10 Microsoft Technology Licensing, Llc Relayed voice control of devices
US9324065B2 (en) * 2014-06-11 2016-04-26 Square, Inc. Determining languages for a multilingual interface
US20160012827A1 (en) * 2014-07-10 2016-01-14 Cambridge Silicon Radio Limited Smart speakerphone
US10241990B2 (en) * 2015-08-26 2019-03-26 Microsoft Technology Licensing, Llc Gesture based annotations
WO2018016139A1 (ja) * 2016-07-19 2018-01-25 ソニー株式会社 情報処理装置、および情報処理方法
US10510362B2 (en) * 2017-03-31 2019-12-17 Bose Corporation Directional capture of audio based on voice-activity detection
US20190095430A1 (en) * 2017-09-25 2019-03-28 Google Inc. Speech translation device and associated method
US10460746B2 (en) * 2017-10-31 2019-10-29 Motorola Solutions, Inc. System, method, and device for real-time language detection and real-time language heat-map data structure creation and/or modification
CN110322881A (zh) * 2018-03-29 2019-10-11 松下电器产业株式会社 语音翻译装置、语音翻译方法及其存储介质
US11238852B2 (en) * 2018-03-29 2022-02-01 Panasonic Corporation Speech translation device, speech translation method, and recording medium therefor

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294076A1 (en) * 2005-12-12 2007-12-20 John Shore Language translation using a hybrid network of human and machine translators
US20090125295A1 (en) * 2007-11-09 2009-05-14 William Drewes Voice auto-translation of multi-lingual telephone calls
CN103299361A (zh) * 2010-08-05 2013-09-11 谷歌公司 翻译语言
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
US20150154957A1 (en) * 2013-11-29 2015-06-04 Honda Motor Co., Ltd. Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus
CN105389099A (zh) * 2014-08-29 2016-03-09 三星电子株式会社 用于语音记录和回放的方法和设备
CN106919559A (zh) * 2015-12-25 2017-07-04 松下知识产权经营株式会社 机器翻译方法以及机器翻译系统
CN106653002A (zh) * 2016-12-15 2017-05-10 咪咕数字传媒有限公司 一种文字直播方法及平台

Also Published As

Publication number Publication date
US20190303443A1 (en) 2019-10-03
US11182567B2 (en) 2021-11-23

Similar Documents

Publication Publication Date Title
CN110322881A (zh) 语音翻译装置、语音翻译方法及其存储介质
US11011170B2 (en) Speech processing method and device
JP6171544B2 (ja) 音声処理装置、音声処理方法及びプログラム
CN110069608A (zh) 一种语音交互的方法、装置、设备和计算机存储介质
KR101696555B1 (ko) 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법
CN107436748B (zh) 处理第三方应用消息的方法、装置、终端设备及可读介质
CN110191045A (zh) 一种信息分享方法、装置、终端及可读存储介质
CN108920070B (zh) 基于异形显示屏的分屏方法、装置、存储介质及移动终端
US11144175B2 (en) Rule based application execution using multi-modal inputs
US20110301936A1 (en) Interpretation terminals and method for interpretation through communication between interpretation terminals
CN110931000B (zh) 语音识别的方法和装置
KR20150060300A (ko) 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법
CN114945110B (zh) 说话头视频合成方法、装置、终端设备及可读存储介质
CN110992953A (zh) 一种语音数据处理方法、装置、系统及存储介质
CN108763350A (zh) 文本数据处理方法、装置、存储介质及终端
CN106487754A (zh) 认证方法
CN204667276U (zh) 搭载有资料备份功能的组合式掌上终端
JP7171402B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
CN113744736B (zh) 命令词识别方法、装置、电子设备及存储介质
JP5705274B2 (ja) 情報処理装置及び方法
CN115116458A (zh) 语音数据转换方法、装置、计算机设备及存储介质
CN111125424B (zh) 提取歌曲核心歌词的方法、装置、设备及存储介质
CN108093124B (zh) 一种音频定位方法、装置及移动终端
US20150324197A1 (en) Input system of macro activation
CN111899738A (zh) 对话生成方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Osaka, Japan

Applicant after: Panasonic Holding Co.,Ltd.

Address before: Osaka, Japan

Applicant before: Matsushita Electric Industrial Co.,Ltd.

CB02 Change of applicant information