CN111226224B - 用于翻译语音信号的方法及电子设备 - Google Patents
用于翻译语音信号的方法及电子设备 Download PDFInfo
- Publication number
- CN111226224B CN111226224B CN201880067170.8A CN201880067170A CN111226224B CN 111226224 B CN111226224 B CN 111226224B CN 201880067170 A CN201880067170 A CN 201880067170A CN 111226224 B CN111226224 B CN 111226224B
- Authority
- CN
- China
- Prior art keywords
- translation
- user
- electronic device
- information
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000013519 translation Methods 0.000 claims abstract description 495
- 230000014616 translation Effects 0.000 claims description 493
- 238000004891 communication Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 25
- 230000015572 biosynthetic process Effects 0.000 description 21
- 238000003786 synthesis reaction Methods 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000000399 orthopedic effect Effects 0.000 description 3
- 239000002537 cosmetic Substances 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
提供了用于在第一语言与第二语言之间翻译语音信号的方法和电子设备,其通过根据接收翻译的用户对第二语言的理解程度来翻译少于语音信号的所有单词的单词,从而使翻译延迟最小化。
Description
技术领域
本公开涉及用于将第一用户的第一语音信号翻译成第二用户的第二语言的方法和电子设备。
背景技术
可使用不同语言对第一用户与第二用户之间的会话进行解释或翻译。这里,解释是指将以第一语言形成的语音信号转换为“语音”,“语音”是以第二语言形成的语音信号,翻译是指将以第一语言形成的语音信号转换为以第二语言形成的“文本”。在下文中,语音信号的识别及其解释或翻译将被全部称为“语音翻译”。
通常,为了管理在说出不同语言的第一用户与第二用户之间的对话,第三方解释器收听第一用户的第一语音、将第一语音翻译成第二语言的第二语音、并且向第二用户说出第二语音。因此,第二用户可通过收听经由解释器以第二语言翻译成第二语音信号的第一语音信号来理解第一用户的语音。
近年来,随着自动语音识别技术和机器翻译技术的发展,正产生具有用于识别语音信号、自动翻译语音信号和输出翻译结果的语音翻译能力的电子设备。
用于在使用不同语言的第一用户与第二用户之间自动翻译的语音翻译技术可包括语音识别、翻译和语音合成。
当语音信号被输入到执行语音翻译的电子设备时,对输入的语音信号执行语音识别,并生成基于第一语言的文本作为语音识别的结果。在翻译阶段,电子设备通过将基于第一语言的文本翻译成第二语言的文本来生成基于第二语言的文本。随后,在语音合成阶段,电子设备将基于第二语言的文本转换为第二语言的语音信号。然后,电子设备通过扬声器输出第二语言的语音信号。在这种自动语音翻译技术中,可使用利用人工智能(AI)系统的机器翻译。
在上述自动语音翻译技术中,进行语音识别阶段、翻译阶段和语音合成阶段需要时间和处理资源。因此,将执行语音识别阶段、翻译阶段和语音合成阶段中的至少一个阶段中出现的时间中的不必要时间最小化,对于快速实时地提供翻译结果是重要的。提供准确的翻译结果也是重要的。这里,在执行语音识别阶段、翻译阶段和语音合成阶段中的至少一个阶段中出现的时间之间的不必要时间可被称为延迟时间。
因此,为了提供用于自动语音翻译的方法和装置,应该使从接收语音信号到输出翻译结果中可能发生的延迟时间最小化。
发明内容
技术问题
为了提供用于自动语音翻译的方法和装置,应该使从接收语音信号到输出翻译结果中可能发生的延迟时间最小化。
技术方案
提供了用于翻译语音信号的方法和电子设备,其能够使在接收待翻译的语音信号和输出已翻译的结果之间可能发生的延迟时间最小化。
提供了用于翻译语音信号的方法和电子设备,其能够基于根据用户的语言熟练度学习的翻译级别,输出针对向其提供翻译结果的用户的语言理解水平而优化的翻译结果。
提供了用于翻译语音信号的方法和电子设备,其能够如同在解释器进行同时解释时提供为用户优化的概括服务和翻译环境。
有益效果
如上所述,电子设备用于将以第一语言形成并由第一用户说出的第一语音信号翻译成第二语言,并将翻译结果提供给第二用户,其基于作为与第二用户相关的信息的第一信息来确定翻译的省略或概括程度,从而省略不需要提供给第二用户的部分的翻译。因此,可最小化自动语音翻译的延迟时间,从而更快速地输出翻译后的结果。而且,可向接收翻译结果的第二用户输出经优化、简洁且清楚的翻译结果。
附图说明
本公开的某些实施方式的上述及其它方面、特征和优点将通过以下结合附图的描述变得更加明显,在附图中:
图1是用于描述本公开中使用的自动语音翻译技术的图;
图2是示出根据本公开的实施方式的电子设备的框图;
图3、图4、图5和图6是用于描述电子设备提供自动语音翻译服务的操作的图;
图7是示出根据本公开的实施方式的电子设备的框图;
图8是用于描述根据本公开的实施方式的翻译操作的图;
图9是用于描述本公开中使用的第一信息的图;
图10是用于描述根据本公开的实施方式的翻译操作的图;
图11是用于描述根据本公开的实施方式的翻译操作的图;
图12至图14是用于描述根据本公开的实施方式的翻译操作的图;
图15是用于描述根据本公开的实施方式的翻译操作的图;
图16是用于描述根据本公开的实施方式的翻译的概括或省略的图;
图17是用于描述根据本公开的实施方式的基于通过神经网络的学习对翻译的概括或省略的图;
图18是根据本公开的实施方式的翻译语音信号的方法的流程图;以及
图19是根据本公开的另一实施方式的翻译语音信号的方法的流程图。
优选实施方式
本申请基于并要求于2017年10月18日在韩国知识产权局提交的第10-2017-0135244号韩国专利申请的优先权,其公开内容通过引用整体并入本文。
提供了用于翻译语音信号的方法和电子设备,能够使接收待翻译的语音信号与输出翻译结果之间可能发生的延迟时间最小化。
提供了用于翻译语音信号的方法和电子设备,其能够基于根据用户的语言熟练度学习的翻译级别,来输出针对被提供翻译结果的用户的语言理解水平而优化的翻译结果。
提供了用于翻译语音信号的方法和电子设备,其能够如同在解释器执行同时解释时,提供为用户优化的概括服务和翻译环境。
另外的方面将部分在随后的描述中阐述,并且部分通过描述而显而易见,或者可通过实践所呈现的实施方式来获知。
根据本公开的一方面,提供了将第一用户的第一语言的第一语音信号转换为第二用户的第二语言的第二语音信号的方法,包括接收第一语音信号;基于与第二用户相关的第一信息,确定将被应用于第一语音信号的翻译的第一翻译级别,根据翻译级别将第一语音信号翻译为第二语音信号;以及输出第二语音信号。
详细地,第一信息可包括指示第二用户对第一语言的理解水平的信息。
第一信息可包括关于第二用户的年龄、性别、教育、职业、国籍和语言熟练度测试分数中的至少一个的信息。
第一翻译级别可包括指示包括在第一语音信号中的至少一个单词的概括或省略程度的信息。
确定的步骤可包括:设置根据用于翻译第一语音信号的概括或省略程度而区分的多个翻译级别;以及基于第一信息从多个翻译级别中选择第一翻译级别。
第一信息可包括先前翻译的历史、第二用户的个人信息、关于执行翻译的环境的信息、以及由第二用户响应于第一语音信号的接收而输入的信息中的至少一个。
将第一语音信号翻译成第二语言可包括基于第一用户的话语特征来确定第一翻译级别。
第一信息可包括与第二用户相关的翻译历史,并且该方法还可包括学习与第二用户相关的翻译历史,并且基于所学习的翻译历史更新第一信息。
该方法还可包括通过通信网络将第二语言的第二语音信号发送到外部电子设备。
根据本公开的一方面,提供了用于将第一用户的第一语言的第一语音信号转换为第二用户的第二语言的第二语音信号的电子设备,电子设备包括接收器、处理器和输出单元,其中接收器配置为接收第一语音信号,处理器配置为基于与第二用户相关的第一信息来确定将被应用于第一语音信号的翻译的第一翻译级别,并且根据第一翻译级别将第一语音信号翻译为第二语音信号,输出单元配置为输出第二语音信号。
详细地,第一信息可包括指示第二用户对第一语言的理解水平的信息。
第一信息可包括关于第二用户的年龄、性别、教育、职业、国籍和语言熟练度测试分数中的至少一个的信息。
第一翻译级别可包括指示包括在第一语音信号中的至少一个单词的概括或省略程度的信息。
处理器可进一步配置为设定根据用于翻译第一语音信号的概括或省略的程度而区分的多个翻译级别,且基于第一信息从多个翻译级别中选择第一翻译级别。
第一信息可包括先前翻译的历史、第二用户的个人信息、关于执行翻译的环境的信息、以及由第二用户响应于第一语音信号的接收而输入的信息中的至少一个。
处理器可进一步配置为基于第一用户的话语特征来确定第一翻译级别。
第一信息可包括与第二用户相关的翻译历史,并且处理器还可配置为学习与第二用户相关的翻译历史,并且基于所学习的翻译历史来更新第一信息。
处理器还可配置为通过对第二语言的翻译结果进行语音合成来生成语音合成的翻译结果,并且输出单元可包括用于显示包括翻译成第二语言的文本数据的用户界面屏幕的显示器和用于输出语音合成翻译结果的音频单元中的至少一个。
电子设备还可包括通信器,其配置成在处理器的控制下在电子设备与外部电子设备之间执行数据发送和接收。通信器还可配置为将第二语言的第二语音信号发送到外部电子设备。
根据本公开的另一方面,提供了其上记录有程序的非暂时性计算机可读记录介质,所述程序包括可由计算机执行的指令。这里,程序可包括指令,指令在由计算机执行时使计算机执行将第一用户的第一语言的第一语音信号翻译成第二用户的第二语言的第二语音信号的方法,该方法包括接收第一语音信号;基于与第二用户相关的第一信息,确定将被应用于第一语音信号的翻译的第一翻译级别,并且基于确定的结果,将第一语音信号翻译为第二语音信号;以及输出第二语音信号。
具体实施方式
可根据功能块组件和各种处理步骤来描述本公开的实施方式。这种功能块可由配置成执行指定功能的任意数量的硬件和/或软件组件来实现。例如,本公开的功能块可通过用于某些功能的一个或多个微处理器或电路配置来实现。此外,本公开的功能块可用任何编程或脚本语言来实现。功能块可通过在一个或多个处理器上执行的算法来实现。此外,本公开可采用用于电子配置、信号处理和/或数据处理的任何数目的现有技术。
此外,在呈现的各个附图中示出的连接线或连接器旨在表示各个元件之间的示例性功能关系和/或物理或逻辑联接。应当注意,在实际设备中可存在许多替代或附加的功能关系、物理连接或逻辑连接。
例如表述“…中的至少一个”在一列元素之后时,修饰整列元素,但不修饰该列中的各个元素。例如,表述“a、b和c中的至少一个”和“a、b和/或c中的至少一个”应理解为仅包括a、仅包括b、仅包括c、包括a和b两者、包括a和c两者、包括b和c两者、或包括a、b和c的全部。
此外,在说明书中描述的术语“...部”、“...器”和模块意味着用于处理至少一个功能和操作的单元,并且可由硬件组件或软件组件及其组合来实现。单元和模块可由存储在存储介质上的程序来实现,该存储介质可被寻址并可由处理器执行。
例如,如本领域技术人员将理解的,单元和模块可由诸如软件组件、面向对象的软件组件、类组件和任务组件、进程、函数、属性、过程、子例程、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表、阵列和变量的组件来实现。
图1是用于描述本公开中使用的自动语音翻译技术的图。
语音翻译技术或语音解释技术是用于识别以输入的第一语言编写的语音信号以及用于将识别的语音信号翻译成第二语言的技术。语音翻译是指将翻译结果输出为文本,语音解释是指将翻译结果输出为可听语音。因此,语音翻译和语音解释对于将识别的语音信号翻译成另一种语言是相同的,而仅以不同的方式输出翻译的结果。
在下文中,为了便于解释,语音翻译和语音解释将被称为“语音翻译”。此外,由电子设备提供的语音翻译技术将被称为“自动语音翻译服务”。
参照图1,第一用户110是说出第一语言的人,第二用户120是理解第二语言的人。而且,第一用户110和第二用户120是使用不同语言彼此通信的说话者。在下文中,将举例说明第一语言是英语而第二语言是韩语的情况。此外,框130和140指示电子设备105提供语音翻译功能的操作。
尽管在图1中电子设备105被示为一个框,但是提供自动语音翻译服务的电子设备105可包括多个物理上不同的电子设备。例如,自动语音翻译服务可通过使用第一用户110的电子设备(例如,第一用户110拥有的智能电话)和第二用户120的电子设备(例如,第二用户120拥有的智能电话)来执行。
参照图1,第一用户110以英语来说出“Thank you”,这是第一语言。电子设备105接收语音信号“Thank you”,并对接收到的语音信号执行语音识别(操作131)。然后,在操作131中经语音识别的“Thank you”被翻译成作为第二语言的韩语(操作132)。在这里,翻译结果将是随后,电子设备105执行语音合成操作以输出经翻译的结果作为语音信号(操作133)。因此,电子设备105可向第二用户120提供语音信号/>
第二用户120可听到由电子设备105输出的语音信号并说出对其响应。然后,电子设备105识别由第二用户120说出的语音/>(操作141),并将该语音翻译成作为第一语言的英语(操作142)。这里,翻译结果将是“You're welcome”。随后,电子设备105执行语音合成操作,以输出翻译结果“You're welcome”作为语音信号(操作143)。因此,电子设备105可向第一用户110提供语音信号“You'rewelcome”。
通常,自动语音翻译技术自动地对所有输入语音信号进行语音识别,并对所有识别的语音信号进行翻译。
然而,在某些情况下,可能会经过不必要的时间段来进行语音识别、翻译和语音合成中的至少一个。例如,当第二用户120理解第一语言中的“Thank you”的含义时,用于将“Thank you”翻译为并将翻译结果提供给第二用户120的操作成为不必要的操作,因此用于输出翻译结果的操作(操作131、132和133)经过的时间段可能是不必要的。
在图1中,示例了简单表述“Thank you”的翻译。然而,在翻译由第一用户110说出的长句子或多个连续句子,以及第二用户120理解部分或全部长句子或连续句子的含义的情况下,翻译由第二用户120理解的、通过第一用户110说出的部分语音可能是不必要的。而且,第一用户110说出的至少一个句子的一部分可能是不重要且可省略的,并且可能不需要翻译。
在下文中,参考附图,将详细描述用于翻译语音信号的方法和电子设备,所述方法和电子设备能够通过最小化用于对输入语音的不必要部分执行语音翻译所经过的时间段来更快速地提供翻译结果,如上所述。详细地,根据本公开的实施方式的用于翻译语音信号的方法和电子设备可省略或概括用户所理解的表达式的翻译或用户不必要的部分。结果,可减少不必要的翻译所用的时间段,并因此可更快速地实时输出翻译结果。
根据本公开实施方式的电子设备将第一用户的第一语音信号翻译成第二语言,并将翻译结果提供给第二用户。详细地,根据本公开的实施方式的电子设备可以是能够提供自动语音翻译服务的任何电子设备。
具体而言,电子设备200可以是但不限于移动计算设备或非移动计算设备,例如可穿戴设备、智能电话、平板PC、PC、智能电视、个人数字助理(PDA)、膝上型计算机、媒体播放器、全球定位系统(GPS)设备、电子书终端、数字广播终端、导航装置、信息亭、MP3播放器、数码相机、汽车电子控制装置、中央信息显示器(CID)等。
人工智能(AI)系统可应用于由根据本公开的用于翻译语音信号的方法和电子设备提供的自动语音翻译服务。
AI系统是计算机设备通过学习和确定来提高操作或计算结果的准确性的计算机系统。
由于AI系统被重复使用,因此AI系统能够通过学习来提高计算结果的准确性,并且更准确地反映用户的意图。因此,以前的基于规则的智能系统逐渐被基于深度学习的AI系统取代。
AI技术可视为使用机器学习的技术,并且深度学习可视为机器学习的类型。深度学习是用于自主分类和学习输入数据的特征的算法技术。元素技术是利用诸如深度学习的机器学习算法来模拟人脑功能(包括识别和确定)的技术,并且包括诸如语言理解、视觉理解、推理/预测、知识表示和运动控制的技术领域。
应用AI技术存在如下各种领域。语言理解是用于识别、应用和处理人类语言/字符的技术,并且包括自然语言处理、机器翻译、对话系统、查询响应、语音识别和/或合成。视觉理解是用于以类似于人类视觉的方式来识别和处理对象的技术,并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解和图像增强。推理/预测是确定用于逻辑推理和预测的信息的技术,并且包括基于知识/概率的推理、优化预测、基于偏好的规划和推荐。知识表示是用于将人类经验信息自动化为知识数据的技术,并且包括知识构建(数据生成/分类)和知识管理(数据利用)。运动控制是用于控制车辆的自主驾驶和机器人的运动的技术,并且包括运动控制(导航、碰撞避免、驾驶)、操纵控制(行为控制)等。
在下文中,将详细描述用于翻译语音信号的方法和电子设备,其能够通过应用AI系统(例如使用神经网络的AI系统),来最小化延迟时间并提供与用户的意图更一致的翻译结果。
图2是示出根据本公开的实施方式的电子设备的框图。
参照图2,电子设备200是这样的电子设备,其用于将由第一用户以第一语言说出的第一语音信号翻译成第二语言的第二语音信号,并将翻译结果(第二语言的第二语音信号)提供给第二用户。电子设备200包括接收器210、处理器220和输出单元230。这里,第一用户和第二用户中的每个可以是以不同语言彼此通信的多个用户中的一个。在下文中,为了便于解释,将描述在使用第一语言的第一用户与使用第二语言的第二用户之间提供自动语音翻译服务的示例。换句话说,第一用户为说出要翻译的语音信号的人,第二用户为被提供翻译结果的人。
接收器210接收第一语音信号,该第一语音信号包括至少一个单词并且是第一语言的。特别地,接收器210包括麦克风,并且可通过麦克风接收第一语音信号。这里,由接收器210接收的第一语音信号成为用于语音识别和翻译的输入。
这里,术语“单词(word)”可指具有独立性、可分性和某种含义的最小单位的词。详细地,“单词”是可通过翻译解释的最小单位的词。因此,可逐个单词地执行翻译,并且可逐个单词地执行翻译的省略或翻译的概括。
还可逐个短语或逐个句子地执行翻译。因此,也可逐个短语或逐个句子地执行省略翻译或概括翻译。由于短语或句子包括至少一个单词,因此可对至少一个单词执行翻译,并且也可对至少一个单词执行翻译的省略或概括。
因此,可对至少一个单词执行翻译、省略翻译和概括翻译中的每一个。因此,下面将描述对至少一个单词执行翻译、省略翻译和概括翻译中的每一个。
换句话说,下面将基于作为省略翻译的单元的“单词”和执行翻译的单元进行描述,但是翻译、省略翻译、或概括翻译也可由包括至少一个单词的组的单元例如短语、句子等来执行。
处理器220可基于作为与第二用户相关的信息的第一信息来确定待应用于第一语音信号的翻译的翻译级别,并且根据翻译级别将第一语音信号翻译成第二语言。例如,处理器220可基于第一信息确定待应用于第一语音信号的翻译的翻译级别作为第一翻译级别。接下来,处理器220基于该翻译级别将第一语音信号翻译成第二语言。在上述示例中,处理器220基于第一翻译级别将第一语音信号翻译成第二语言。
此外,处理器220可基于作为与第二用户相关的信息的第一信息,来确定是否省略对包括在第一语音信号中的至少一个单词的翻译。接下来,处理器220可基于确定的结果将第一语音信号翻译为第二语言。
详细地说,处理器220可语音识别第一语音信号,并基于第一信息将经过语音识别的第一语音信号翻译为第二语言。随后,处理器220可对翻译成第二语言的结果执行语音合成,并输出语音合成的翻译结果。
这里,处理器220对语音识别数据进行机器翻译,该语音识别数据是经过语音识别的第一语音信号。
此外,处理器220可控制电子设备200的组件来执行提供自动语音翻译服务所需的操作,包括语音接收、语音识别、语音翻译和语音输出中的至少一个的操作。
详细地,处理器220通过人工神经网络执行翻译,该人工神经网络是在人工智能(AI)领域中使用的神经网络。人工神经网络通过多个层计算输入信号、基于计算的结果值执行学习并基于学习的结果减少误差。因此,可输出高度精确的翻译结果。这里,学习可包括机器学习。详细地说,可使用深度学习,其是使用人工神经网络的机器学习。
详细地说,人工神经网络可包括多个层。每一层通过对作为输入信号的第一语音信号应用包括权重的核,来输出对应于第一语音信号的翻译结果。这里,可通过学习人工神经网络来更新在各个层中使用的权重。
详细地说,处理器220可接收第一信息和第一语音信号作为输入信号,使用第一信息和第一语音信号进行学习,并且关于第一语音信号对第二用户的语言理解水平进行分类。处理器220基于通过层的计算,对第二用户关于包括在第一语音信号中的至少一个单词的语言理解水平进行反复学习和分类,并基于学习结果通过省略包括在第一语音信号中的至少一个单词中的至少一个词来执行翻译。
此外,处理器220可学习使得被省略或概括的翻译结果具有自然连接的句子结构。因此,可生成与第二用户的语言理解水平相对应地被正确概括的翻译结果。
下面将参考图17详细描述通过包括在人工神经网络中的多个层执行翻译操作。
输出单元230以第二语言输出翻译结果。输出单元230可包括用于输出音频数据的音频设备和用于输出图像数据的显示器中的至少一个。
详细地,当输出单元230包括音频设备时,音频设备可输出由处理器220执行的语音合成的结果作为用户可以可听地识别的音频信号。或者,当输出单元230包括显示器时,显示器可显示包括作为翻译结果的文本数据的用户界面屏幕。详细地,接收器210可接收第一语音信号或包括第一语音信号的音频信号。例如,音频信号可以是包括第一用户正在发声的环境中产生的环境声音和环境噪声以及第一用户的语音信号的信号。
当接收器210接收并向处理器220发送第一语音信号时,处理器220可对第一语音信号执行语音识别。详细地,当接收器210接收到连同第一语音信号一起的、不同于第一语音信号的音频信号分量时,处理器220可从接收到的音频信号中获取第一语音信号。随后,处理器220可对第一语音信号执行语音识别和翻译。存在提取作为语音识别的主题的第一语音信号的各种方法。例如,接收器210可从接收到的音频信号中提取与人类语音的频带对应的信号分量作为第一语音信号。而且,上述用于获取第一语音信号的操作可由接收器210执行。在这种情况下,当与第一语音信号一起接收到除了第一语音信号之外的音频信号分量时,接收器210可从接收到的音频信号中过滤第一语音信号。
电子设备200还可接收由外部电子设备接收和语音识别的第一语音信号。电子设备200还可从外部电子设备(例如,无线麦克风、有线麦克风、另一电子设备等)接收第一语音信号。在这种情况下,电子设备200可通过下面参考图7描述的通信器450接收第一语音信号或语音识别出的第一语音信号。在这种情况下,通信器450可向处理器220发送第一语音信号或语音识别出的第一信号。当处理器220接收到第一语音信号时,处理器220可对其执行语音识别和翻译。可替换地,当处理器220接收到语音识别出的第一语音信号时,处理器220可翻译语音识别出的第一语音信号。
如上所述,用于接收由第一用户发出的语音的操作可由类似外部语音接收设备(例如,无线麦克风、有线麦克风、可穿戴设备等)的外部电子设备、外部语音识别装置和接收器210中的至少一个来执行。
图3到图6是用于描述电子设备200提供自动语音翻译服务的操作的图。
图3、图4、图5和图6中的每个所示的第一用户310可对应于图1的第一用户110。此外,图3、图4、图5和图6中的每个所示的电子设备200与图2的电子设备200相同。
详细地,语音识别操作是指用于通过使用自动语音识别(ASR)技术来识别所接收的音频信号中的用户的语音的操作。
上面参考图2描述的电子设备200是用于执行语音接收、语音识别和语音翻译的设备,并且电子设备200执行的操作之中的语音接收也可通过外部电子设备来执行。在电子设备200执行的操作之中的语音接收和语音识别也可通过外部电子设备来执行。
详细地,执行语音接收和语音识别中的至少一个并结合电子设备200操作的外部电子设备可以是,但不限于移动计算设备或非移动计算设备,例如可穿戴设备、智能电话、平板PC、PC、智能TV、PDA、膝上型计算机、、媒体播放器、GPS设备、电子书终端、数字广播终端、导航设备、信息亭、MP3播放器、数码相机、汽车电子控制设备、CID等。
外部电子设备可经由有线或无线网络连接到电子设备200。
下面将参考图3至图6描述电子设备200结合外部电子设备操作以提供自动语音翻译服务的各种实施方式。
在图3、图4、图5和图6中,示例出电子设备200是智能电话的情况。而且,将示例执行语音接收、语音识别和语音翻译中的至少一个并结合电子设备200操作的外部电子设备是语音识别服务器320和/或可穿戴设备331的情况。
图3示出了电子设备200直接接收语音信号并提供自动翻译服务的示例。
如以上参考图2所描述的,电子设备200接收由说话者发出的第一语音信号,并对第一语音信号执行语音识别。
例如,当第一用户说出“Hello,nice to meet you”时,电子设备200接收与第一用户说出的第一语音信号“Hello,nice to meet you”对应的音频信号。接下来,音频信号被语音识别,并且可获得作为与“Hello,nice to meet you”对应的数据的语音识别数据。接下来,对语音识别数据进行翻译,并输出翻译结果。
图4示出了电子设备200结合作为外部电子设备的语音识别服务器320提供自动翻译服务的示例。
参照图4,电子设备200可接收第一用户310的语音信号,并将该语音信号发送到语音识别服务器320。然后,语音识别服务器320执行用于语音识别的操作131、用于翻译的操作132、以及以上参考图1描述的用于语音合成的操作133,并生成翻译结果。
详细地,电子设备200的接收器210接收第一用户310的语音信号。电子设备200可经由内部提供的通信器将语音信号发送到语音识别服务器320。这里,电子设备200通过网络321连接到语音识别服务器320。网络321是有线或无线网络,并且可以是符合诸如蓝牙、无线LAN(WLAN)、无线宽带(WiBro)、全球微波接入互操作性(WiMAX)、CDMA和WCDMA的通信标准的网络。在下文中,将举例说明电子设备200和语音识别服务器320通过符合Wi-Fi通信标准的网络发送和接收特定数据的情况。
语音识别服务器320可经由符合Wi-Fi通信标准的网络321从电子设备200接收语音信号,对语音信号执行语音识别和翻译,并生成翻译结果。这里,翻译结果可以是文本数据。此外,翻译结果可以是通过语音合成生成的音频数据。
随后,语音识别服务器320可经由网络321将翻译结果发送到电子设备200。然后,电子设备200的输出单元230可输出翻译结果。
图5示出了通过作为外部电子设备的可穿戴设备331接收语音信号的示例。在这种情况下,可穿戴设备331可经由有线或无线的网络335连接到电子设备200。网络335可对应于上面参考图4描述的网络321,因此将省略对其的详细描述。图5例示了网络335是符合蓝牙通信标准的网络的情况。
作为外部电子设备的可穿戴设备331接收第一用户310的语音信号。可穿戴设备331经由网络335(例如,符合蓝牙通信标准的网络)向电子设备200发送语音信号。然后,电子设备200可对语音信号执行语音识别和翻译,并输出翻译结果。在实施方式中,图5的电子设备200可与图4的服务器通信以执行语音识别和翻译,如下所述。
图6例示了电子设备200经由作为外部电子设备的可穿戴设备331接收语音信号,并将语音信号发送到语音识别服务器350以提供自动语音翻译服务的情况。图6中所示的语音识别服务器350和网络351分别对应于图5中所示的语音识别服务器320和网络321,因此将省略对其的详细描述。
参照图6,作为外部电子设备的可穿戴设备331接收第一用户310的语音信号。可穿戴设备331经由网络335(例如,符合蓝牙通信标准的网络)向电子设备200发送语音信号。随后,电子设备200经由网络351(例如,符合Wi-Fi通信标准的网络)将语音信号发送到语音识别服务器350。然后,语音识别服务器350可通过对语音信号执行语音识别和翻译来生成翻译结果。这里,翻译结果可以是文本数据。此外,翻译结果可以是通过语音合成生成的音频数据。
随后,语音识别服务器350可经由网络351将翻译结果发送到电子设备200。然后,电子设备200的输出单元230可输出翻译结果。
图7是示出根据本公开的实施方式的电子设备的框图。
参照图7,电子设备400包括接收器410、处理器420和输出单元430。此外,电子设备400还可包括用户输入单元440、通信器450和存储器460中的至少一个。
在图7所示的电子设备400中,接收器410、处理器420和输出单元430分别对应于图2所示的电子设备200的接收器210,处理器220和输出单元230。因此,为了描述电子设备400,将省略与以上关于图2的电子设备200的描述相同的描述。
接收器410接收第一语音信号,该第一语音信号包括第一语言的至少一个单词。详细地,接收器410可包括用于接收第一语音信号的麦克风。
详细地,接收器410接收第一用户的第一语音信号,并将第一语音信号发送到处理器420。
例如,第一用户说出句子“Hello,nice to meet you”,接收器410接收第一用户的第一语音信号。接着,接收器410将第一语音信号发送到处理器420。然后,处理器420语音识别第一语音信号。在上面的例子中,语音识别数据,即语音识别出的第一语音信号,可以是与“Hello,nice to meet you”对应的文本数据。处理器420基于作为与第二用户相关的信息的第一信息,确定是否省略包括在第一语音信号中的至少一个单词的至少一个翻译,并基于确定结果将第一语音信号翻译成第二语言。这里,第一信息可以是指示第二用户的语言理解、语言熟练度、对话环境等的信息。
详细地,处理器420可通过机器翻译(MT)生成与语音识别出的第一语音信号对应的翻译结果。这里,翻译结果可作为文本数据生成。随后,处理器420可使用文本到语音(TTS)技术将作为翻译结果的文本数据转换为音频数据。也就是说,处理器420可执行语音合成,从而生成与翻译结果相对应的音频数据。
详细地,处理器420可使用人工神经网络来执行翻译。为了产生对应于输入信号的输出信号,人工神经网络通过多个层自主地从处理输入信号中学习,从而可产生精确的输出信号。
而且,即使在省略了对包括在第一语音信号中的至少一个单词的至少一个单词翻译时,第一信息也可以是指示第二用户是否能够理解第一语音信号的信息。或者,第一信息可以是指示省略包括在第一语音信号中的至少一个单词的至少一个单词翻译是否满足第二用户的意图的信息。此外,第一信息可包括可用于考虑第二用户的请求和/或用于执行翻译的环境来确定要概括多少翻译的信息。
详细地,第一信息可包括指示第二用户关于以第一语言形成的第一语音信号的理解水平或语言熟练度的信息。第一信息可与第二用户的简档相关联。
第一信息可存储在存储器460中或者可存储在外部服务器中。当第一信息被存储在外部服务器中时,处理器420可通过通信器450从外部服务器获得第一信息。
此外,当存在使用语音识别翻译服务的多个用户时,可为每个用户获得第一信息。
此外,电子设备400可连续地更新第一信息,以向第二用户提供优化的翻译结果。详细地,电子设备400可通过人工神经网络进行学习来更新第一信息。
例如,第一语音信号可包含五个单词:hello、nice、to、meet和you。处理器420可基于第一信息来确定是否省略对五个单词中的至少一个的翻译。例如,当第二用户听到“Hello”并知道其在韩语中的含义时,可省略“Hello”的翻译。在这种情况下,处理器420可通过省略“Hello”的翻译并仅翻译剩余的单词“nice to meet you”来生成翻译结果/>因此,电子设备400可减少用于翻译和输出/>的时间段。
此外,第一信息可包括第二用户的个人信息、关于执行翻译的环境的信息、以及由第二用户输入的与第一语音信号的接收相对应的信息中的至少一个。下面将参考图8至图11详细描述第一信息。
输出单元430以第二语言输出翻译结果。
详细地,处理器420执行语音识别和翻译,从而生成音频数据和视频数据中的至少一个,其包括对应于第一语音信号的翻译结果。处理器420将音频数据和视频数据中的至少一个发送到输出单元430。然后,输出单元430通过音频设备和显示器中的至少一个输出从处理器420发送的音频数据和视频数据中的至少一个。
输出单元430可仅输出音频数据或仅输出视频数据。输出单元430也可同时输出音频数据和视频数据。
例如,输出单元430可包括能够分别输出音频数据和视频数据的扬声器431和显示器433中的至少一个。详细地,扬声器431输出作为第二用户可听见的音频信号的翻译结果。
显示器433输出包括为翻译结果的文本数据的用户界面屏幕。可替换地,显示器433可以以实时显示的字幕的形式输出翻译结果。
输出单元430还可向外部电子设备(例如,智能电话、智能电视、智能手表、服务器等)发送翻译结果。在这种情况下,外部电子设备可接收包括翻译结果的音频数据和视频数据中的至少一个,并将翻译结果输出到第二用户。
用户输入单元440可接收用于控制电子设备400的用户输入。用户输入单元440可包括但不限于用户输入设备,该用户输入设备包括用于感测用户触摸的触摸面板、用于接收用户的按压操作的按钮、用于接收用户的旋转操作的轮、键盘和圆顶开关。
通信器450可经由有线或无线通信与外部电子设备或服务器通信。根据实施方式的通信器450包括至少一个通信模块,如短距离通信模块、有线通信模块、移动通信模块、广播接收模块等。这里,至少一个通信模块是指能够通过符合诸如蓝牙、无线LAN(WLAN)(Wi-Fi)、无线宽带(WiBro)、微波接入世界互操作性(WiMAX)、CDMA和WCDMA的通信标准的网络来发送和接收数据的通信模块。
在图7中,通信器450被示为单独的框,但是通信器450也可配置为被包括作为接收器410的组件。
同样,如以上参考图4、图5和图6所描述的,电子设备400的通信器450还可经由网络321、335或351与外部电子设备或服务器通信。如以上参考图4、图5和图6所描述的,电子设备400可结合外部电子设备或通过特定网络连接的服务器,来执行提供自动语音翻译服务的操作。
根据本公开的实施方式的通信器450可从外部电子设备接收第一语音信号。在这种情况下,通信器450可向处理器420发送第一语音信号。然后,处理器420可语音识别第一语音信号。
存储器460可存储由处理器420执行的翻译结果。存储器460可存储经由接收器410接收的音频信号或第一语音信号。存储器460可接收和存储基于每个句子的输入音频信号、基于恒定时间长度的输入音频信号、或者基于恒定数据大小的输入音频信号。
根据实施方式的存储器460可存储在处理器420中执行以控制电子设备400的计算机可读指令。
根据实施方式的存储器460可存储作为关于第二用户的信息的第一信息。存储器460还可存储接收到的用于执行翻译的语音信号和对语音信号执行语音识别的结果。此外,存储器460可存储包括提供给第二用户的翻译结果的历史(以下称为“话语历史”)的数据库。此外,存储器460可例如在每个用户的简档中存储分别对应于多个用户的多个第一信息片段。
根据实施方式的处理器420可基于存储在存储器460中的第一信息,来确定是否省略对包括在第一语音信号中的至少一个单词的至少一个单词翻译。
根据实施方式的存储器460可包括闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如SD存储器或XD存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘中的至少一种类型的存储介质。
在下文中,将以图7所示的电子设备400为例对用于翻译语音信号的方法和电子设备的操作进行详细描述。
图8是用于详细描述根据本公开的实施方式的基于第一信息的翻译操作的图。在图8中,为了示出执行翻译所需的详细操作,以框示出各操作。
参照图8,电子设备400可基于第一信息,来确定是否省略包括在第一语音信号中的至少一个单词的至少一个单词翻译(操作510)。这里,操作510可由处理器420执行。
框505是用于描述第一信息的框。如上所述,第一信息可以是这样的信息,即指示即使包括在第一语音信号中的至少一个单词被省略时,第二用户是否可理解以第一语言形成的第一语音信号。
第一信息可包括第二用户的个人信息、关于执行翻译的环境的信息、以及响应于第一语音信号的接收由第二用户输入的信息中的至少一个。
下面将参考图9详细描述第二用户的个人信息。
图9是用于详细描述在本公开的实施方式中使用的第一信息中的、第二用户的个人信息的图。
第二用户的个人信息可包括关于第二用户的年龄、性别、语言分数、教育、职业和国籍中的至少一个的信息。
参照图9,可通过收集指示第二用户的、关于包括在以第一语言形成的第一语音信号中的至少一个单词和/或至少一个句子的语言理解水平的信息,来获得第二用户的个人信息。在图9中,第二用户的个人信息被称为“用户简档信息”,其为用于对第二用户关于第一语言的理解水平建立简档的信息,以及根据多个类别对第二用户关于第一语言的理解水平建立简档的实施方式。
电子设备400可获得用户简档信息以确定第二用户的语言理解水平或语言熟练度。例如,电子设备400可获得提供有翻译结果的多个用户中的每一个的用户简档信息,并将该用户简档信息存储在存储器460中。详细地,电子设备400可通过用户输入单元440接收每个用户的用户简档信息。可替换地,电子设备400可自主地收集并获得用户简档信息。电子设备400还可从外部服务器接收用户简档信息。
用户简档信息可用于用户的语言熟练度测试分数简档631、指示用户的国籍或生活区域的用户背景信息简档632、以及用户的教育和职业简档633。
电子设备400可基于参考内部所提供的存储器设备或从电子设备400外部(例如云服务器650)经由有线或无线网络提供到电子设备400的用户简档623,来确定第二用户是否能够理解包括在第二语言的第一语音信号中的单词或句子。这里,用于用户简档623的操作可由处理器420执行。
这里,云服务器650可包括用于语言熟练度测试的语言熟练度数据库651、用于国籍和背景的语言熟练度数据库652、以及用于教育和职业的语言熟练度数据库653。
用于语言熟练度测试的语言熟练度数据库651可分类并存储用户针对某种语言熟练度测试的各个测试分数范围所理解的单词和句子。
此外,用于国籍和背景的语言熟练度数据库652可对来自各个国家和地区(例如,用户所来自的地区)的用户理解其含义的单词和句子进行分类和存储。
此外,用于教育和职业的语言熟练度数据库653可根据教育水平和职业类型中的至少一个,来分类和存储用户所理解的单词和短语。
例如,第二用户的官方英语水平测试的测试结果可包括在用户简档信息中,并且用户的语言熟练度测试分数简档631可处于上部等级中。在这种情况下,电子设备400可参考用于语言熟练度测试的语言熟练度数据库651进行语言水平测试,并确定第二用户理解包括在第一语音信号中的至少一个单词或句子中的至少一个(操作634)。详细地,操作634可由处理器420执行。
下面将详细描述操作634的具体实施方式。
例如,考虑到年龄组的新提交的单词和主要口述的语言,电子设备400可使用关于第二用户的年龄的信息作为用户理解模型的初始值。这里,“用户理解模型”可指的是指示被提供有翻译结果的第二用户是否能够理解包括至少一个单词或句子的语音信号的含义而不提供翻译结果的模型。例如,电子设备400可确定在无需翻译的情况下,第二用户理解在二十几岁的人群中通常流行的歌手的姓名。在这种情况下,电子设备400可省略对相应歌手的名字的翻译。
此外,电子设备400可通过根据男性和女性对兴趣进行分类并且将关于第二用户的性别的信息与其相关联,将关于第二用户的性别的信息作为用户理解模型的初始值。例如,由于二十几岁的男性对游戏非常感兴趣,二十几岁的女性对化妆品非常感兴趣,所以可确定出当第二用户是二十几岁的男性时,第二用户已经理解单词“game”,而当第二用户是二十几岁的女性时,第二用户已经理解单词“cosmetics”。
此外,电子设备400可使用关于第二用户的语言熟练度的信息作为用户理解模型的初始值,以用于识别不需要根据语言熟练度的水平来翻译的表达。
此外,电子设备400可使用关于第二用户的教育的信息作为模型的初始值,以根据教育水平通过难度水平来指示理解句子的水平。例如,在大学生的情况下,小学生水平句子的翻译概率可以很低。因此,当第二用户是大学生时,电子设备400可决定省略在用于小学生的英语语言教育中使用的单词和/或句子的翻译。
此外,电子设备400可基于关于第二用户的职业的信息来分类用于职业的技术术语,并且使用所分类的技术术语作为待存储的用户理解模型的初始值。例如,当第二用户是心脏病专家时,可确定第二用户理解以第一语言形成的与心脏病学相关的技术术语,从而可省略其翻译。
此外,基于关于第二用户的国家或国籍的信息,电子设备400可确定第二用户在相应国家中频繁地理解单词而无需翻译。因此,电子设备400可决定省略其翻译。例如,当第二用户的国籍是法国时,可确定第二用户理解在韩语中发出的单词“baguette”,因此可省略其翻译。
此外,关于执行翻译的环境的信息(以下称为“环境信息”)可包括指示执行翻译时的物理和/或心理环境的信息。详细地,环境信息可包括用于执行翻译的预约事项、第一用户和/或第二用户的位置、第一用户与第二用户之间的对话主题、第一用户与第二用户之间的关系、关于执行翻译的环境中的环境噪声的信息等。
详细地,电子设备400可根据预约事项的重要性和用于执行翻译的位置,来确定是否省略包括在第一语音信号中的至少一个单词的至少一个单词翻译。例如,当用于执行翻译的预约事项是商业会议时,电子设备400需要精确地翻译所有细节,因此可使翻译省略最小化以翻译所有细节。
在另一示例中,电子设备400可通过考虑第一用户和/或第二用户的位置、第一用户与第二用户之间的对话主题、以及第一用户与第二用户之间的关系中的至少一个来调整概括或省略翻译的级别。例如,在用于朋友之间的会话翻译的情况下,电子设备400可将翻译的细节级别设置为低级别,从而增加了概括和省略翻译的级别。
此外,考虑到执行翻译的环境的环境噪声,电子设备400可确定出在环境噪声的水平较高时,第二用户可能更不能正确地识别第一用户的发声。在这种情况下,电子设备400可将翻译的细节级别设置为高、改变翻译结果的音频输出的音量、或者突出显示关于翻译结果的文本的大小和颜色。
此外,当电子设备400是第二用户经常使用的电子设备(例如,第二用户拥有的移动电话)时,第一信息可包括存储在电子设备400中的信息。
这里,存储在电子设备400中的信息可以是由第二用户输入的备忘录、第二用户发送的文档、存储在电子设备400中的电影和/或歌曲的标题、存储在联系人列表中的姓名等。
例如,当第二用户通过电子设备400输入备忘录并将该备忘录存储在电子设备400的个人文件中时,可确定第二用户已经理解包括在备忘录中的以第一语言形成的单词或句子。因此,基于存储在电子设备400中的备忘录,电子设备400可省略对包括在备忘录中的某些单词或句子的翻译。
参照图8,第一信息,即指示第二用户的第一语言的理解水平的信息可包括语言理解历史522。
这里,语言理解历史522是指示对第二用户的第一语言的理解水平的历史的信息。当向第二用户提供翻译结果时、当在第一用户与第二用户之间进行对话时、或者当第二用户使用(收听、写、说出等)第一语言时,可连续地更新语言理解历史522。
处理器420可学习与第二用户相关联的翻译历史并更新第一信息。详细地,当向第二用户提供翻译结果时、当在第一用户与第二用户之间进行对话时、或者当第二用户使用(收听、写、说出等)第一语言时,处理器420可学习翻译历史,并且不断地更新包括语言理解历史522的第一信息。
此外,语言理解历史522可包括特定时期的历史。例如,语言理解历史522可包括第二用户基于当前时间在最近三个月内使用第一语言的历史。
例如,语言理解历史522可包括在第二用户和另一用户(例如,第一用户)之间讲第一语言的会话的历史、第二用户使用第一语言的历史等。
例如,当第一语言是英语并且第二用户已听到句子“How may I go to cityhall?”,并且在上周提供其翻译结果三次或更多次时,可通过基于使用频率的学习将该历史存储为语言理解历史522。电子设备400可通过参考语言理解历史522确定出第二用户理解句子“How may I go to city hall?”,并省略句子“How may I go to city hall?”的翻译。
此外,第一信息可包括与第一语音信号的接收发声相对应的、第二用户在听到作为会话伙伴的第一用户的发声之后输入的信息。在下文中,第二用户输入的与第一语音信号的接收相对应的信息将被称为“第二用户输入信息”。当接收到第二用户输入信息561时,电子设备400可确定第二用户已经理解了第一语音信号,并且可不执行包括在第一语音信号中的至少一个单词、至少一个短语或至少一个句子的翻译或省略翻译。
详细地,第二用户输入信息561可以以语音、触摸图案、姿态和备忘录的形式接收。详细地,当接收到第一语音信号时,第二用户可向电子设备400输入指示第二用户理解包括在第一语音信号中的至少一个单词的含义的语音、触摸图案、姿态和备忘录中的至少一个。
例如,当第二用户连续地触摸包括在用户输入单元440中的触摸屏一定次数或者以一定图案在触摸屏上拖动时,电子设备400可接收相应的触摸图案作为用户输入信息。
在另一示例中,当接收到第一语音信号时,即,当第一用户发出等并且第二用户发出/>等对其做出响应时,电子设备400接收第二用户通过用户输入单元440发出的/>等,确定出由于第二用户理解与其对应的至少一个单词,不需要对其的翻译,并且可省略其翻译。
可替换地,当第二用户进行点头姿态时,电子设备400可将点头姿态识别为用户输入信息。
这里,电子设备400的用户可通过用户输入单元440设置第二用户输入信息561的输入方法的类型。详细地,第二用户输入信息561的输入方法的类型包括经由语音、触摸图案、姿态和备忘录等的输入方法。这里,用户可包括使用电子设备400的人,包括第二用户,例如电子设备400的拥有者。
可替换地,第二用户输入信息561可由电子设备400的处理器220自主设置。详细地,当启动自动语音翻译服务时,电子设备400可向第二用户通知第二用户输入信息561的设置类型。例如,当电子设备400在第一用户与第二用户之间开始对话的情况下启动自动语音翻译服务时,作为语音输出的指导消息,例如,“please say'yes'to a word(or asentence)you understand”。此外,除了语音之外,还可通过用户界面屏幕等输出指导消息。
此外,在接收第一语音信号的同时,当没有接收到用户输入信息时,电子设备400可翻译并输出整个第一语音信号,而不进行概括或省略翻译。
此外,第二用户可逐个单词地、逐个短语地、或逐个句子地输入第二用户输入信息561。此外,第二用户可基于句子的含义单元或阅读单元输入用户输入信息。下面将参考图11详细描述根据用户输入信息的翻译的概括或省略。
再次参考图8,框520用于描述确定用户是否理解包括在第一语音信号中的至少一个单词的操作。框550用于描述基于用户是否理解的确定结果来确定是否省略包括在第一语音信号中的至少一个单词翻译的操作。由于图8的用户简档523对应于上面在图9中描述的用户简档623,因此将省略与以上的相同描述。
例如,电子设备400可基于包括第二用户输入信息561、语言理解历史522、第二用户的语言熟练度524和用户简档523中的至少一个的第一信息,来确定第二用户是否以第二语言理解第一语音信号。详细地,电子设备400的处理器420可确定第二用户是否理解以第二语言的第一语音信号。
然后,电子设备400可基于第一信息从包括在第一语音信号中的至少一个单词,确定要省略的单词的数量(操作555)。这里,可基于单词、基于包括至少一个单词的短语或基于包括至少一个单词的句子来执行省略翻译。
省略构成某个单元,例如句子或短语的整个第一语音信号的翻译可被称为“省略翻译551”,并且通过省略包括在第一语音信号中的至少一个单词的翻译来提供第一语音信号翻译的翻译概括可被称为“概括翻译552”。此外,根据包括在第一语音信号中的单词、句子等的省略程度,每个翻译的省略和概括可包括多个级别。例如,当省略程度增加时,翻译概括的级别增加。另一方面,当省略程度降低时,翻译概括的级别降低。
电子设备400可根据确定的结果来确定是省略还是概括翻译,并对第一语音信号执行翻译。
电子设备400可基于作为与第二用户相关的信息的第一信息,来确定将被应用于第一语音信号的翻译的翻译级别,并且可根据所确定的翻译级别将第一语音信号翻译成第二语言。然后,处理器220基于上述确定的结果将第一语音信号翻译为第二语言。
详细地,电子设备400可基于第一信息来确定指示用于翻译第一语音信号的概括或省略程度的翻译级别。然后,根据所确定的翻译级别,可将第一语音信号翻译成第二语言。
此外,电子设备400可基于第一信息来设置根据用于翻译第一语音信号的概括或省略程度来区分的多个翻译级别。也就是说,电子设备400可基于第一信息、基于包括在第一语音信号中的至少一个单词中的多少将被省略,来设置多个翻译级别。然后,当电子设备400基于第一信息从多个翻译级别中选择特定翻译级别(例如,第一翻译级别)时,电子设备400可根据所选择的翻译级别对第一语音信号执行翻译。
此外,电子设备400可通过人工神经网络执行操作以设置多个翻译级别。此外,电子设备400可通过人工神经网络执行操作,以从多个翻译级别中选择第一翻译级别。
根据翻译的概括程度,翻译级别可被分成多级,例如多个翻译级别。例如,翻译级别0指示没有翻译,并且指示第一语音信号的翻译被完全省略。此外,翻译级别1到N指示通过省略对第一语音信号的部分的翻译来提供概括翻译的级别。当对第一语音信号的细节执行翻译时,翻译级别可变得接近N。另一方面,在省略了对第一语音信号的更多部分的翻译时,翻译水平可接近1。
例如,当电子设备400基于第一信息确定第二用户理解整个第一语音信号的含义时,电子设备400不执行翻译。也就是说,电子设备400可确定翻译级别是0,因此电子设备400可跳过整个第一语音信号的翻译。
当包括在第一语音信号中的至少一个单词包括第二用户所理解的单词时,电子设备400可对除了相应单词之外进行翻译。可替换地,当第一语音信号包括第二用户所理解的句子模式时,可对相应句子模式之外执行翻译。
下面将参考图16和图17对多个翻译级别进行详细描述。
在另一示例中,当电子设备400基于语言理解历史522确定第一语音信号是第二用户第一次遇到的语言时,可最小化对翻译的省略或概括,从而详细地翻译第一语音信号。
此外,电子设备400可基于由第一用户输入的语音信号563的话语特征,来确定是否省略包括在输入语音信号中的至少一个单词中的至少一个。这里,图8所示的语音信号563表示要被翻译的第一语音信号。
详细地,电子设备400的处理器420可基于第一用户的话语特征来确定是否省略对包括在第一语音信号中的至少一个单词的至少一个单词翻译,并且将第一语音信号翻译成第二语言。
这里,第一用户的话语特征可包括与第一用户对第一语音信号的发声相关的信息,包括第一用户的发声速度、发声长度、发音、音调和出身国家中的至少一个。
电子设备400可根据发声速度、发声长度、发音、音调和出身国家中的至少一个,来确定第二用户关于第一语音信号的理解水平。例如,当作为非本机说话者的第一用户说出不寻常的口音时,电子设备400确定第二用户不理解第一用户的第一语音信号。因此,电子设备400可在没有省略的情况下对整个第一语音信号执行翻译。
此外,在第一用户与第二用户之间的对话中,随着对话速度变慢或所发出的句子的长度增加,可增加翻译的省略程度。
此外,电子设备400的处理器420可通过对第一用户的第一语音信号的语音信息处理(操作553),来识别发声速度、发声长度、发音和语言中的至少一个。详细地,处理器420可学习第一用户的第一语音信号,并根据第一语音信号的特性来确定第二用户的理解水平。
例如,处理器420经由AI可深度学习第一用户的第一语音信号、根据第一用户的第一语音信号的特性对允许的概括程度进行分类、并可根据分类的概括程度对第一语音信号进行概括和翻译。详细地,处理器420可接收第一用户的第一语音信号并学习第一语音信号的特性。换句话说,处理器420经由AI可学习第一语音信号的特性,从而学习关于用于概括第一语音信号的翻译程度的标准。然后,可根据所获知的标准来执行对第一语音信号的概括翻译。
此外,电子设备400可基于第一信息输出与不重要的单词、短语或句子区分开的重要关键词、短语或句子,以用于输出翻译结果。例如,当电子设备400的输出单元430通过显示器433输出作为文本的翻译结果时,重要的关键字可以不同的颜色或大小显示或突出显示。此外,当电子设备400的输出单元430通过扬声器431输出翻译结果时,重要关键字可以增大的音量输出,或者重要关键字的翻译结果可重复输出一定次数。
图10是用于描述根据本发明实施方式的翻译操作的图。
详细地说,图10示出了用于翻译第一用户的语音信号的操作。
参照图10,当第一用户在时间点t1发出“How can I go to the orthopedicssurgery?”时,电子设备400接收与第一用户发出的“How can I go to the orthopedicssurgery?”对应的第一语音信号710并语音识别第一语音信号。然后,电子设备400基于作为与第二用户有关的信息的第一信息,确定是否省略包括在语音识别出的第一语音信号中的至少一个单词中的至少一个。详细地,电子设备400基于第一信息确定第二用户是否理解包括在第一语音信号中的至少一个单词。详细地,第一信息可包括指示以上参考图8和图9描述的语言理解历史522的信息。在图10中,例示了第一信息包括表720中所包括的信息的情况。
参照图10,表720示出了由其他用户发出的语音信号的历史,已提供翻译结果的第二用户的语音信号。参考表720,句子“How can I go to city hall?”被确定为第二用户已通过图9中描述的用户简档623理解的句子。还有句子“How can I go to the school?”,第二用户输入信息561指示该句子先前已由另一用户发出并且第二用户先前已被提供有对其的翻译结果,例如,由第二用户输入的语音信号721,以指示第二用户在听到第一语音信号之后理解该句子。
然后,电子设备400基于第一信息确定第二用户理解“How can I go to~?”部分711,并决定省略对“How can I go to~?”部分711的翻译。详细地,电子设备400可基于第一信息的学习结果,可估计出第二用户理解“How can I go to~?”部分711,其中第一信息包括表720中所示的关于用户简档623的信息和包括语音信号721的第二用户输入信息561。
因此,电子设备400可输出730,这是仅翻译被确定出第二用户不理解的“orthopedics clinic”部分的结果。
如上所述,电子设备400可通过省略第二用户所理解的部分的翻译来更快速和简洁地输出翻译结果。因此,电子设备400可通过最小化在执行自动语音翻译时可能出现的延迟,快速地向第二用户提供翻译结果。此外,第二用户可以仅接收他或她不理解的部分的翻译结果。因此,第二用户可减少读取或听到他已经理解的翻译结果的时间和精力。
图11是用于描述根据本公开的实施方式的翻译操作的图。详细地,图11是示出当第一信息包括用户输入信息时基于第一信息的翻译操作的图。在图11中,将举例说明用户输入信息是触摸屏(未示出)被触摸一次的触摸事件的情况。
参照图11,第一用户在时间点t1与时间点t2之间说出“Excuse me”部分820,随后在时间点t3和时间点t4之间说出“How can I go to the hospital?”部分825。因此,电子设备400接收第一语音信号,该第一语音信号包括对应于“Excuse me”部分820的语音信号和对应于“How can I go to the hospital?”部分825的语音信号。第二用户听到由第一用户说出的“Excuse me”部分820已经说出,并且可将触摸事件810输入到电子设备400以指示第二用户理解其含义。这里,触摸事件810是包括在第一信息中的信息,并且对应于图8中描述的第二用户输入信息561。
电子设备400可省略“Excuse me”部分820的翻译,并且基于触摸事件810仅翻译“How can I go to the hospital?”部分825。此外,在输入触摸事件810之后,电子设备400可将话语历史830更新为语言理解历史522。然后,当在稍后的时间点处接收到对应于“Excuse me”的语音信号时,电子设备400可确定第二用户理解“Excuse me”并省略其翻译。
图12到图14是用于描述根据本公开的实施方式的翻译操作的图。详细地,图12至图14示出了基于第一信息的翻译省略或概括。在图12到图14中,时间点t1是在时间点t0之后的时间点,并且时间点t2是在时间点t1之后的时间点。
参照图12,当第一用户说出“Thanks”部分910时,电子设备400接收对应于“Thanks”部分910的语音信号。电子设备400基于包括在第一信息中的语言理解历史522来确定是否省略对Thanks的翻译。在该示例中,语言理解历史522包括在时间点t0之前的话语历史905。由于在话语历史905中没有执行对“Thanks”翻译的历史,并且没有指示第二用户理解单词“Thanks”的韩语含义的历史,所以电子设备400确定第二用户不理解“Thanks”,并且输出部分920作为翻译结果。
参照图13,电子设备400更新包括在语言理解历史522中的话语历史907,以反映在图12中执行的翻译的历史。
参照图13,当第一用户在时间点t1说出“Thanks”时,电子设备400接收对应于“Thanks”的语音信号。第二用户听到对应于“Thanks”的语音信号,并且可说出“You'rewelcome”部分930作为相应答案。在这种情况下,电子设备400可基于“You're welcome”部分930来确定省略“Thanks”的翻译,其中“You're welcome”部分930是第二用户响应于对应于“Thanks”的语音信号的接收而输入的信息。因此,电子设备400可不输出翻译结果。当电子设备400省略与接收到的语音信号对应的翻译时,电子设备400可输出通知消息。例如,电子设备400可输出与“pass(跳过)”、“skip(跳过)”或某种报警声音对应的音频信号,或者可输出包括“省略翻译”的消息屏幕。此外,电子设备400更新包括在语言理解历史522中的话语历史907,以反映在图13中执行的翻译历史。处理器420可学习更新的话语历史907,并确定第二用户理解“Thanks”的含义。
参照图14,当第一用户在时间点t2说出“Thanks”部分950时,电子设备400接收对应于“Thanks”部分950的语音信号。电子设备400基于包括在第一信息中的语言理解历史522来确定是否省略对Thanks的翻译。在该示例中,语言理解历史522包括在时间点t2之前的话语历史909。由于话语历史909具有指示第二用户理解“Thanks”的历史,所以电子设备400可确定第二用户理解“Thanks”并决定省略其翻译。
图15是用于描述根据本公开的实施方式的翻译操作的图。
参考图10,电子设备400可接收与第一用户发出的“Would you do me a favor?”部分1010和“Could you bring me some souvenirs for me tomorrow?”部分1020对应的语音信号。
当电子设备400在不省略翻译的情况下对包括在语音信号中的至少一个单词进行翻译时,电子设备400可输出部分1011作为对应于“Would youdo me a favor?”部分1010的翻译结果,并输出部分1021作为对应于“Could you bring me some souvenirs for me tomorrow?”部分1020的翻译结果。
图16是用于描述根据本公开的实施方式的翻译概括或省略的图。图16示出了通过省略在图15中描述的语音信号中包括的至少一个单词来进行翻译的示例。
参照图16,电子设备400可基于第一信息确定是否省略包括在语音信号中的至少一个单词的翻译,并相应地输出翻译结果。
详细地,电子设备400可基于第一信息来确定要省略包括在语音信号中的至少一个单词中的多少单词,并且基于该确定结果来执行翻译。
在这种情况下,表示为“确定要省略包括在语音信号中的至少一个单词中的多少单词”。然而,该表达指示包括在第一语音信号中的至少一个句子的翻译的概括程度,而不是要省略的单词的数量。即,当省略的单词数量增加时,将输出更概括的翻译结果。相反,当省略的单词数量减少时,将输出较少概括的翻译结果。
图16示出了根据语音信号的翻译中的概括或省略程度,来设置三个翻译级别的示例。例如,电子设备400可设置三个翻译级别,包括:第一翻译级别,用于翻译如部分1011和1021的输入语音信号;第二翻译级别,用于翻译如部分1050的输入语音信号;以及第三翻译级别,用于翻译如部分1060的输入语音信号。例如,当电子设备400基于第一信息确定在不省略包括在语音信号中的至少一个单词的情况下进行翻译时,电子设备400输出部分1011和部分1021。
此外,当电子设备400基于第一信息决定省略包括在语音信号中“Would you dome a favor?”部分1010的翻译时,电子设备400可输出部分1050,其是对应于“Could you bring me some souvenirs for me tomorrow?”部分1020的翻译结果。
此外,当电子设备400基于第一信息确定省略包括在语音信号中“Would you do me afavor?”部分1010的翻译并概括“Could you bring me some souvenirs tomorrow?”部分1020的翻译时,电子设备400可降低翻译的细节级别,并输出部分1060作为翻译结果。
如上参考图16所述,电子设备400可基于第一信息来确定第二用户理解以第一语言形成的第一语音信号的第二语言含义的程度,并且执行语音信号的翻译的省略和/或概括。
图17是用于描述根据本公开的实施方式通过神经网络的基于翻译的学习的概括或省略的图。
电子设备400可设置多个翻译级别,并且基于第一信息从多个翻译级别中选择第一翻译级别。然后,电子设备400可根据第一翻译级别对第一语音信号执行翻译。详细地,电子设备400可通过人工神经网络的操作,基于指示多个用户中的每个的语言理解程度的信息来设置对应于语言理解程度的多个翻译级别。当需要用于特定用户(即第二用户)的翻译服务时,电子设备400可通过人工神经网络执行操作,并且基于指示第二用户的语言理解程度的第一信息,从多个翻译级别中选择特定的翻译级别。
这里,可根据如上所述的翻译概括或省略的程度,将多个翻译级别彼此区分开。例如,多个翻译级别可包括完整翻译级别L-Max(L-最大)、部分概括级别L-2和完整概括级别L-1。然后,电子设备400根据确定的翻译级别执行翻译。
详细地,电子设备400的处理器420可通过神经网络执行学习,并且根据使用第一信息和第一语音信号作为输入数据的学习结果来不同地输出翻译结果作为输出数据。
详细地,翻译级别可被包括在训练数据中,并被反映到用于提供翻译结果的训练中。处理器420可根据如上所述的学习的概括或省略翻译的程度来提供不同的翻译结果。
例如,参考图17,处理器420通过在训练数据中包括翻译级别来训练人工智能网络。
图17示意性地示出了具有包括多个层的结构的神经网络。
参照图17,人工神经网络可包括输入层1105、隐藏层1120和输出层1140。此外,可在处理器420内执行通过人工神经网络的操作。可替换地,与处理器420分离地,通过人工神经网络的操作可通过用于通过人工神经网络执行操作的处理器、控制器或芯片来执行。
在图17中,通过输入层1105输入的数据可以是第一语音信号1101、1102和1103以及指示翻译级别的信息1104。也就是说,人工神经网络可包括输入层1105、隐藏层1120和输出层1140。这里,语音信号1101、1102和1103中的每一个对应于具有特定含义的“语义单元”,并且可包括单词、短语、从句或句子。
这里,指示翻译级别的信息1104可以是指示通过学习分类的翻译级别的信息,或者可以是用于确定翻译级别的第一信息。当信息1104是指示通过学习分类的翻译级别的信息时,处理器420可在下一层(即隐藏层1120)中使用第一语音信号1101、1102和1103的输入信息以及信息1104来学习,并生成翻译结果。并且,当信息1104是用于确定翻译级别的第一信息时,处理器420可学习第一信息并确定待应用于将要执行的翻译的翻译级别。然后,处理器420可学习所确定的翻译级别和第一语音信号1101、1102和1103,并生成翻译后的结果。
此外,在图17中,通过在隐藏层1120处执行的学习和训练来更新层与节点之间的权重。例如,处理器420可通过重复学习来获得分别应用于作为输入信号的第一语音信号1101、1102和1103的权重W[1]、W[...]和W[n]。然后,可将权重W[1]、W[...]和W[n]分别应用于作为输入信号的第一语音信号1101、1102和1103,并且因此经训练的神经网络可根据翻译级别生成具有变化的句子长度的翻译结果。因此,即使在输入同一句子时,也可根据翻译级别生成具有不同程度的概括和不同句子长度的翻译结果。参照图17,与从输出层1140输出的第一语音信号1101、1102和1103对应的翻译结果中的一些语义单元1141和1142被输出作为翻译结果,并且一些语义单元1143和1144被省略而不输出作为翻译结果。
例如,电子设备400可将权重值1应用于语言理解历史中不存在的语义单元,并且可将权重值-1应用于语言理解历史中每次使用的语义单元。然后,基于权重值,可根据翻译级别来确定语义单元的省略程度。
详细地,电子设备400可对输入的第一语音信号中包括的单词、短语或句子中的每一个应用权重,并且通过基于权重值应用多个翻译级别中的任何一个来执行其翻译。
参照图17,“Could you bring me some souvenirs tomorrow?”被输入到电子设备400。电子设备400确定第二用户是否理解作为不同语义单元的第一语音信号1111、1112和1113中的每一个的含义。此外,权重可被至少应用于在语言理解历史中不存在的每个语义单元,可主要对具有高权重的部分执行翻译,并且可对具有低权重的部分省略翻译。
例如,电子设备400可将权重值1应用于语言理解历史中不存在的语义单元,并且可将权重值-1应用于语言理解历史中每次使用的语义单元。然后,基于权重值,可根据翻译级别来确定单词的省略程度。
例如,电子设备400可输出以完全翻译级L-Max的、类似部分1050的部分1150。由于翻译级别是全翻译级别L-Max,因此提供了最大长度的翻译结果。
此外,在部分概括级别L-2,电子设备400可基于人工神经网络中的语义单元的权重,来提供具有适于相应级别的翻译长度的翻译结果。因此,可省略一些语义单元的翻译,因此可输出 部分1160。此外,在全概括级别L-1,电子设备400可输出进一步概括的翻译结果,即/>部分1170。
此外,尽管电子设备400可基于第一信息来确定翻译级别,但是电子设备400也可根据用户输入来确定翻译级别。例如,当用户通过用户输入单元440请求根据特定翻译级别进行翻译时,电子设备400可根据翻译级别来确定翻译的概括或省略程度。
如上所述,电子设备用于将以第一语言形成并由第一用户说出的第一语音信号翻译成第二语言并将翻译结果提供给第二用户,其基于作为与第二用户相关的信息的第一信息来确定翻译的省略或概括程度,从而省略不需要提供给第二用户的部分翻译。因此,可最小化自动语音翻译的延迟时间,从而更快速地输出翻译结果。而且,可向接收翻译结果的第二用户输出经优化的、简洁且清楚的翻译结果。
图18是根据本公开的实施方式的翻译语音信号的方法的流程图。包括在图18所示的翻译语音信号的方法1200中的操作与以上参考图1至图17描述的根据本公开的实施方式在电子设备200或400中执行的操作相同。因此,在描述根据本公开的实施方式的翻译语音信号的方法1200时,将省略描述与以上参考图1至图17的相同描述。
翻译语音信号的方法1200是将第一用户以第一语言发出的第一语音信号翻译成第二语言,并向第二用户提供翻译结果的方法。
在翻译语音信号的方法1200中,接收包括至少一个单词的第一语音信号(操作S1210)。操作S1210可在电子设备400的接收器410处执行。
接下来,在翻译语音信号的方法1200中,基于作为与第二用户相关的信息的第一信息,确定是否省略包括在第一语音信号中的至少一个单词的至少一个单词翻译,并且将第一语音信号翻译成第二语言(操作S1220)。操作S1220可在电子设备400的处理器420处执行。此外,当翻译结果作为语音输出时,处理器420可对翻译结果执行语音合成,并通过输出单元430输出语音合成的结果。
在翻译语音信号的方法1200中,输出以第二语言的翻译结果(操作S1230)。操作S1230可在电子设备400的输出单元430处执行。
图19是根据本公开的实施方式的翻译语音信号的方法的流程图。包括在图19所示的翻译语音信号的方法1300中的操作与以上参考图1至图17描述的根据本公开实施方式在电子设备200或400中执行的操作相同。因此,在描述根据本公开的实施方式的翻译语音信号的方法1300时,将省略对与以上参考图1至图17相同的描述。此外,图19中的操作S1310对应于图18中的操作S1210,图19中的操作S1320和S1325对应于图18中的操作S1220,并且图19中的操作S1350对应于图18中的操作S1240。因此,在描述翻译语音信号的方法1300时,省略与以上参考图18的那些相同的描述。
参照图19,在翻译语音信号的方法1300中,接收包括至少一个单词的第一语音信号(操作S1310)。操作S1310可在电子设备400的接收器410处执行。
在翻译语音信号的方法1300中,获得作为与第二用户相关的信息的第一信息(操作S1320)。操作S1320可在电子设备400的处理器420处执行。
接下来,在翻译语音信号的方法1300中,基于第一信息确定是否省略包括在第一语音信号中的至少一个单词的至少一个单词翻译(操作S1325),并且将第一语音信号翻译成第二语言。S1325的操作可在电子设备400的处理器420处执行。
详细地,在翻译语音信号的方法1300中,可基于第一信息来确定翻译的省略或概括程度。详细地,基于第一信息,可确定是否省略对第一语音信号的翻译(操作S1330)。
作为操作S1330中确定的结果,在部分省略翻译的情况下,可确定要省略包括在第一语音信号中的至少一个单词的多少单词翻译,即,翻译的省略程度(操作S1340)。操作S1330和S1340对应于上面参考图8描述的操作550,因此将省略对其的详细描述。
基于操作S1340中确定的结果,根据概括程度或对应于概括程度的翻译级别来执行概括翻译(操作S1341)。此外,当确定出执行翻译而不概括作为操作S1340中确定的结果时,对整个第一语音信号执行翻译(操作S1345)。操作S1341和S1345对应于上面参考图8、图6、图10和图11详细描述的操作550,因此将省略对其的详细描述。
在翻译语音信号的方法1300中,输出以第二语言的翻译结果(操作S1350)。操作S1350可在电子设备400的输出单元430处执行。
根据本公开的实施方式的用于翻译语音信号的方法和电子设备可使待翻译的语音信号的接收和翻译结果的输出之间的延迟时间最小化。
此外,根据本公开的实施方式的用于翻译语音信号的方法和电子设备可为向其提供翻译结果的用户输出经优化的翻译结果。详细地,根据本公开的实施方式的用于翻译语音信号的方法和电子设备可根据向其提供翻译结果的用户的语言理解、语言熟练度和周围环境中的至少一个来输出经优化的翻译结果。
此外,根据本公开的实施方式的用于翻译语音信号的方法和电子设备可提供为用户优化的概括服务和如同解释器执行同时解释的翻译环境。
详细地,为了将由第一用户以第一语言发出的第一语音信号翻译成第二语言并且将翻译结果提供给第二用户,根据本公开的实施方式的用于翻译语音信号的方法和电子设备可基于作为与第二用户相关的信息的第一信息来确定翻译的省略或概括程度,从而省略对不需要提供给第二用户的部分的翻译。因此,可最小化在自动语音翻译期间发生的延迟时间,从而更快速地输出翻译结果。而且,可向接收翻译结果的第二用户输出经优化的、简洁且清楚的翻译结果。
此外,可通过使用人工神经网络来学习提供有翻译结果的第二用户的会话模式或会话历史,从而输出针对第二用户的语言理解水平而优化的翻译结果。
一个或多个实施方式可实现为存储可由诸如程序模块的计算机执行的至少一个指令的计算机可读记录介质。计算机可读记录介质可以是计算机可访问的任意可用介质,并且其示例包括所有易失性介质(例如RAM)和非易失性介质(例如ROM)以及可分离和不可分离介质。此外,计算机可读记录介质的示例可包括计算机存储介质和通信介质。计算机存储介质的示例包括用于存储诸如计算机可读命令、数据结构、程序模块和其它数据的信息的、所有易失性和非易失性介质以及已通过任意方法或技术实现的可分离和不可分离介质。通信介质通常包括计算机可读命令、数据结构、程序模块、调制数据信号的其它数据、或另一传输机制,并且其示例包括任意信息传输介质。此外,一些实施方式可实现为包括可由计算机执行的指令的计算机程序或计算机程序产品,例如由计算机执行的计算机程序。
在本公开中描述的具体实现方式仅是示例,而并不试图以任何方式限制本公开的范围。为了描述的简洁,可省略根据相关技术的电子配置、控制系统、软件和系统的其它功能方面的描述。
Claims (17)
1.将第一用户的第一语言的第一语音信号翻译为第二用户的第二语言的第二语音信号的方法,所述方法包括:
接收所述第一语音信号;
基于与所述第二用户相关的第一信息,确定待应用于所述第一语音信号的翻译的第一翻译级别,其中,所述第一翻译级别指示所述第一语音信号中包括的至少一个单词的概括或省略程度;
根据所述第一翻译级别将所述第一语音信号翻译成所述第二语音信号;
输出所述第二语音信号;以及
响应于省略对所述第一语音信号的翻译,输出指示省略翻译的消息。
2.根据权利要求1所述的方法,其中,所述第一信息包括指示所述第二用户对所述第一语言的理解水平的信息。
3.根据权利要求2所述的方法,其中,所述第一信息包括与所述第二用户的年龄、性别、教育、职业、国籍和语言熟练度测试得分中的至少一个有关的信息。
4.根据权利要求1所述的方法,其中所述确定的步骤包括:
设置用于翻译所述第一语音信号的根据概括或省略程度而区分的多个翻译级别;以及
基于所述第一信息从所述多个翻译级别中选择所述第一翻译级别。
5.根据权利要求1所述的方法,其中所述第一信息包括:
先前翻译的历史、所述第二用户的个人信息、与执行翻译的环境有关的信息、以及由所述第二用户响应于对所述第一语音信号的接收而输入的信息中的至少一个。
6.根据权利要求1所述的方法,其中,所述翻译的步骤包括:
基于所述第一用户的话语特征来确定所述第一翻译级别;以及
根据所确定的第一翻译级别执行所述翻译。
7.根据权利要求1所述的方法,其中所述第一信息包括与所述第二用户相关的翻译历史,以及所述方法还包括:
学习与所述第二用户相关的翻译历史;以及
基于所学习的翻译历史来更新所述第一信息。
8.根据权利要求1所述的方法,还包括通过通信网络将所述第二语言的所述第二语音信号发送到外部电子设备。
9.一种电子设备,用于将第一用户的第一语言的第一语音信号翻译成第二用户的第二语言的第二语音信号,所述电子设备包括:
接收器,配置为接收所述第一语音信号;
处理器,配置为基于与所述第二用户相关的第一信息,来确定待应用于所述第一语音信号的翻译的第一翻译级别,并且根据所述第一翻译级别将所述第一语音信号翻译为所述第二语音信号,其中,所述第一翻译级别指示所述第一语音信号中包括的至少一个单词的概括或省略程度;以及
输出单元,配置为输出所述第二语音信号,以及响应于省略对所述第一语音信号的翻译,输出指示省略翻译的消息。
10.根据权利要求9所述的电子设备,其中所述第一信息包括指示所述第二用户对所述第一语言的理解水平的信息。
11.根据权利要求10所述的电子设备,其中所述第一信息包括与所述第二用户的年龄、性别、教育、职业、国籍和语言熟练度测试得分中的至少一个有关的信息。
12.根据权利要求9所述的电子设备,其中所述处理器进一步配置为:设置用于翻译所述第一语音信号的用于概括或省略程度而区分的多个翻译级别,以及基于所述第一信息从所述多个翻译级别中选择所述第一翻译级别。
13.根据权利要求9所述的电子设备,其中所述第一信息包括:
先前翻译的历史、所述第二用户的个人信息、与执行翻译的环境有关的信息、以及由所述第二用户响应于对所述第一语音信号的接收而输入的信息中的至少一个。
14.根据权利要求9所述的电子设备,其中,所述处理器进一步配置为:
基于所述第一用户的话语特征来确定所述第一翻译级别;以及
基于所确定的第一翻译级别执行所述翻译。
15.根据权利要求9所述的电子设备,其中所述第一信息包括与所述第二用户相关的翻译历史,以及所述处理器进一步配置为:
学习与所述第二用户相关的翻译历史;以及
基于所学习的翻译历史来更新所述第一信息。
16.根据权利要求9所述的电子设备,其中,所述第二语言的所述第二语音信号通过通信网络被发送到外部电子设备。
17.一种非暂时性计算机可读记录介质,其上记录有程序,所述程序包括由计算机能够执行的指令,其中所述指令在由所述计算机执行时使所述计算机执行权利要求1至8中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0135244 | 2017-10-18 | ||
KR1020170135244A KR102449875B1 (ko) | 2017-10-18 | 2017-10-18 | 음성 신호 번역 방법 및 그에 따른 전자 장치 |
PCT/KR2018/012261 WO2019078615A1 (en) | 2017-10-18 | 2018-10-17 | METHOD AND ELECTRONIC DEVICE FOR TRANSLATING A VOICE SIGNAL |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111226224A CN111226224A (zh) | 2020-06-02 |
CN111226224B true CN111226224B (zh) | 2024-01-12 |
Family
ID=66096058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880067170.8A Active CN111226224B (zh) | 2017-10-18 | 2018-10-17 | 用于翻译语音信号的方法及电子设备 |
Country Status (5)
Country | Link |
---|---|
US (3) | US11264008B2 (zh) |
EP (1) | EP3669289A4 (zh) |
KR (1) | KR102449875B1 (zh) |
CN (1) | CN111226224B (zh) |
WO (1) | WO2019078615A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11361168B2 (en) * | 2018-10-16 | 2022-06-14 | Rovi Guides, Inc. | Systems and methods for replaying content dialogue in an alternate language |
US11392853B2 (en) * | 2019-02-27 | 2022-07-19 | Capital One Services, Llc | Methods and arrangements to adjust communications |
CN110083846B (zh) * | 2019-04-28 | 2023-11-24 | 北京小米移动软件有限公司 | 翻译语音输出方法、装置、存储介质和电子设备 |
CN110287498B (zh) * | 2019-05-30 | 2023-04-07 | 北京百度网讯科技有限公司 | 层次化翻译方法、装置及存储介质 |
US11551012B2 (en) | 2019-07-05 | 2023-01-10 | Electronics And Telecommunications Research Institute | Apparatus and method for providing personal assistant service based on automatic translation |
KR102519619B1 (ko) * | 2019-07-05 | 2023-04-10 | 한국전자통신연구원 | 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법 |
KR20210014909A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 대상의 언어 수준을 식별하는 전자 장치 및 방법 |
KR20190099167A (ko) * | 2019-08-06 | 2019-08-26 | 엘지전자 주식회사 | 음성 인식을 수행하는 인공 지능 기기 |
CN111245460B (zh) * | 2020-03-25 | 2020-10-27 | 广州锐格信息技术科技有限公司 | 一种具有人工智能翻译的无线对讲机 |
US11977855B2 (en) * | 2020-11-10 | 2024-05-07 | Electronics And Telecommunications Research Institute | System and method for automatic speech translation based on zero user interface |
US20220188525A1 (en) * | 2020-12-14 | 2022-06-16 | International Business Machines Corporation | Dynamic, real-time collaboration enhancement |
CN114065785B (zh) * | 2021-11-19 | 2023-04-11 | 蜂后网络科技(深圳)有限公司 | 实时在线通讯翻译方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096787A (ja) * | 1995-06-14 | 1997-01-10 | Sharp Corp | 訳振り機械翻訳装置 |
US6278968B1 (en) * | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US7539619B1 (en) * | 2003-09-05 | 2009-05-26 | Spoken Translation Ind. | Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy |
CN101542474A (zh) * | 2005-05-26 | 2009-09-23 | 微软公司 | 集成本机语言翻译 |
CN102306464A (zh) * | 2011-07-29 | 2012-01-04 | 许宏 | 单手便携式语言交流在线装置 |
CN103093252A (zh) * | 2011-10-28 | 2013-05-08 | 夏普株式会社 | 信息输出装置以及信息输出方法 |
KR20130123038A (ko) * | 2012-05-02 | 2013-11-12 | 한국전자통신연구원 | 자동 번역을 위한 존대 표현 생성 장치 및 그 방법 |
CN103530285A (zh) * | 2013-10-09 | 2014-01-22 | 百度在线网络技术(北京)有限公司 | 翻译消息的方法和装置 |
CN104010267A (zh) * | 2013-02-22 | 2014-08-27 | 三星电子株式会社 | 支持基于翻译的通信服务方法和系统和支持该服务的终端 |
CN107079069A (zh) * | 2014-10-19 | 2017-08-18 | Televic会议股份有限公司 | 会议系统的口译员桌 |
CN107590135A (zh) * | 2016-07-07 | 2018-01-16 | 三星电子株式会社 | 自动翻译方法、设备和系统 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3766872B2 (ja) * | 1995-09-13 | 2006-04-19 | 株式会社東芝 | 論理シミュレーション装置 |
JPH0981567A (ja) * | 1995-09-13 | 1997-03-28 | Toshiba Corp | 翻訳方法 |
US5867164A (en) | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
US6751776B1 (en) | 1999-08-06 | 2004-06-15 | Nec Corporation | Method and apparatus for personalized multimedia summarization based upon user specified theme |
JP2001101187A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
US6993473B2 (en) * | 2001-08-31 | 2006-01-31 | Equality Translation Services | Productivity tool for language translators |
US20040267527A1 (en) * | 2003-06-25 | 2004-12-30 | International Business Machines Corporation | Voice-to-text reduction for real time IM/chat/SMS |
US9552354B1 (en) * | 2003-09-05 | 2017-01-24 | Spoken Traslation Inc. | Method and apparatus for cross-lingual communication |
JP4791984B2 (ja) * | 2007-02-27 | 2011-10-12 | 株式会社東芝 | 入力された音声を処理する装置、方法およびプログラム |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
JP2009081567A (ja) | 2007-09-25 | 2009-04-16 | Oki Electric Ind Co Ltd | 再送制御システム、再送制御方法、送信機及び受信機 |
US20090144048A1 (en) * | 2007-12-04 | 2009-06-04 | Yuval Dvorin | Method and device for instant translation |
US8326601B2 (en) * | 2009-02-11 | 2012-12-04 | Microsoft Corporation | Queue based mechanism to support multi-language chat rooms |
KR101640024B1 (ko) * | 2009-09-23 | 2016-07-15 | 삼성전자주식회사 | 사용자의 상황에 기반한 휴대용 통역 장치 및 방법 |
US8279861B2 (en) * | 2009-12-08 | 2012-10-02 | International Business Machines Corporation | Real-time VoIP communications using n-Way selective language processing |
CN102385861B (zh) | 2010-08-31 | 2013-07-31 | 国际商业机器公司 | 一种用于从语音内容生成文本内容提要的系统和方法 |
US8990065B2 (en) * | 2011-01-11 | 2015-03-24 | Microsoft Technology Licensing, Llc | Automatic story summarization from clustered messages |
US9229929B2 (en) * | 2011-09-13 | 2016-01-05 | Monk Akarshala Inc. | Modular translation of learning applications in a modular learning system |
US20130144619A1 (en) * | 2011-12-01 | 2013-06-06 | Richard T. Lord | Enhanced voice conferencing |
US8811638B2 (en) * | 2011-12-01 | 2014-08-19 | Elwha Llc | Audible assistance |
US8996352B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US20150088485A1 (en) * | 2013-09-24 | 2015-03-26 | Moayad Alhabobi | Computerized system for inter-language communication |
JP2015125499A (ja) * | 2013-12-25 | 2015-07-06 | 株式会社東芝 | 音声通訳装置、音声通訳方法及び音声通訳プログラム |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US9367541B1 (en) * | 2015-01-20 | 2016-06-14 | Xerox Corporation | Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms |
JP6470097B2 (ja) | 2015-04-22 | 2019-02-13 | 株式会社東芝 | 通訳装置、方法およびプログラム |
US10235007B2 (en) * | 2015-05-21 | 2019-03-19 | Gammakite, Llc | Guided operation of a language device based on constructed, time-dependent data structures |
US10394861B2 (en) * | 2015-10-22 | 2019-08-27 | International Business Machines Corporation | Natural language processor for providing natural language signals in a natural language output |
CN107102990A (zh) * | 2016-02-19 | 2017-08-29 | 株式会社东芝 | 对语音进行翻译的方法和装置 |
US10255277B2 (en) * | 2016-06-24 | 2019-04-09 | Facebook, Inc. | Crowd matching translators |
US11144810B2 (en) * | 2017-06-27 | 2021-10-12 | International Business Machines Corporation | Enhanced visual dialog system for intelligent tutors |
-
2017
- 2017-10-18 KR KR1020170135244A patent/KR102449875B1/ko active IP Right Grant
-
2018
- 2018-10-17 EP EP18867918.7A patent/EP3669289A4/en not_active Ceased
- 2018-10-17 WO PCT/KR2018/012261 patent/WO2019078615A1/en unknown
- 2018-10-17 CN CN201880067170.8A patent/CN111226224B/zh active Active
- 2018-10-18 US US16/163,789 patent/US11264008B2/en active Active
-
2022
- 2022-01-26 US US17/585,019 patent/US11915684B2/en active Active
-
2024
- 2024-01-17 US US18/415,166 patent/US20240161731A1/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096787A (ja) * | 1995-06-14 | 1997-01-10 | Sharp Corp | 訳振り機械翻訳装置 |
US6278968B1 (en) * | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US7539619B1 (en) * | 2003-09-05 | 2009-05-26 | Spoken Translation Ind. | Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy |
CN101542474A (zh) * | 2005-05-26 | 2009-09-23 | 微软公司 | 集成本机语言翻译 |
CN102306464A (zh) * | 2011-07-29 | 2012-01-04 | 许宏 | 单手便携式语言交流在线装置 |
CN103093252A (zh) * | 2011-10-28 | 2013-05-08 | 夏普株式会社 | 信息输出装置以及信息输出方法 |
KR20130123038A (ko) * | 2012-05-02 | 2013-11-12 | 한국전자통신연구원 | 자동 번역을 위한 존대 표현 생성 장치 및 그 방법 |
CN104010267A (zh) * | 2013-02-22 | 2014-08-27 | 三星电子株式会社 | 支持基于翻译的通信服务方法和系统和支持该服务的终端 |
CN103530285A (zh) * | 2013-10-09 | 2014-01-22 | 百度在线网络技术(北京)有限公司 | 翻译消息的方法和装置 |
CN107079069A (zh) * | 2014-10-19 | 2017-08-18 | Televic会议股份有限公司 | 会议系统的口译员桌 |
CN107590135A (zh) * | 2016-07-07 | 2018-01-16 | 三星电子株式会社 | 自动翻译方法、设备和系统 |
Non-Patent Citations (1)
Title |
---|
口语机器翻译中的零代词处理方法研究;胡燕林;《中国优秀硕士学位论文全文数据库信息科技辑》(第11期);I138-466 * |
Also Published As
Publication number | Publication date |
---|---|
US20220148567A1 (en) | 2022-05-12 |
US11915684B2 (en) | 2024-02-27 |
KR20190043329A (ko) | 2019-04-26 |
WO2019078615A1 (en) | 2019-04-25 |
EP3669289A1 (en) | 2020-06-24 |
US20190115010A1 (en) | 2019-04-18 |
EP3669289A4 (en) | 2020-08-19 |
KR102449875B1 (ko) | 2022-09-30 |
CN111226224A (zh) | 2020-06-02 |
US20240161731A1 (en) | 2024-05-16 |
US11264008B2 (en) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111226224B (zh) | 用于翻译语音信号的方法及电子设备 | |
US10388284B2 (en) | Speech recognition apparatus and method | |
US11605374B2 (en) | Method and device for providing voice recognition service | |
US11282522B2 (en) | Artificial intelligence apparatus and method for recognizing speech of user | |
US9053096B2 (en) | Language translation based on speaker-related information | |
KR102544249B1 (ko) | 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 | |
US11216497B2 (en) | Method for processing language information and electronic device therefor | |
US11942077B2 (en) | Electronic device and operating method thereof | |
US11211059B2 (en) | Artificial intelligence apparatus and method for recognizing speech with multiple languages | |
Delgado et al. | Spoken, multilingual and multimodal dialogue systems: development and assessment | |
US20190303393A1 (en) | Search method and electronic device using the method | |
US20220375469A1 (en) | Intelligent voice recognition method and apparatus | |
US20240055003A1 (en) | Automated assistant interaction prediction using fusion of visual and audio input | |
KR102458343B1 (ko) | 음성 데이터를 송수신하는 디바이스 및 방법 | |
KR20200132645A (ko) | 음성 인식 서비스를 제공하는 장치 및 방법 | |
Siegert et al. | Admitting the addressee detection faultiness of voice assistants to improve the activation performance using a continuous learning framework | |
KR20220110408A (ko) | 멀티미디어 제공 애플리케이션을 통한 다언어 번역 제공 방법 | |
Schuller et al. | Speech communication and multimodal interfaces | |
US20240347045A1 (en) | Information processing device, information processing method, and program | |
KR102476497B1 (ko) | 언어 대응 화상 출력 장치, 방법 및 시스템 | |
US20240339041A1 (en) | Conversational teaching method and system and server thereof | |
JP6790791B2 (ja) | 音声対話装置および対話方法 | |
CN118567602A (zh) | 人机交互方法、装置、电子设备及计算机存储介质 | |
Hackbarth | Revolutionizing Augmentative and Alternative Communication with Generative Artificial Intelligence | |
JP2021144170A (ja) | 情報処理方法及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |