CN116368490A - 电子装置及其控制方法 - Google Patents

电子装置及其控制方法 Download PDF

Info

Publication number
CN116368490A
CN116368490A CN202180069620.9A CN202180069620A CN116368490A CN 116368490 A CN116368490 A CN 116368490A CN 202180069620 A CN202180069620 A CN 202180069620A CN 116368490 A CN116368490 A CN 116368490A
Authority
CN
China
Prior art keywords
text
sentence
intent
output
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180069620.9A
Other languages
English (en)
Inventor
李范锡
韩孝姃
萨蒂什·因杜蒂
穆赫德·阿巴斯·扎伊迪
尼基勒·库马尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210016257A external-priority patent/KR20220112563A/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN116368490A publication Critical patent/CN116368490A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S715/00Data processing: presentation processing of document, operator interface processing, and screen saver display processing
    • Y10S715/978Audio interaction as part of an operator interface

Abstract

提供了一种电子装置。该电子装置包括扬声器、存储至少一个指令的存储器、以及与存储器电连接的处理器。处理器被配置为通过执行该指令以:将第一文本输入到第一神经网络模型中,并且获取与第一文本对应的第一翻译文本;将第一翻译文本输入到第二神经网络模型中,并且获取与第一翻译文本对应的第一意译文本;基于第一文本和第一意译文本,识别第一意译文本是否能被输出;根据识别结果,控制扬声器输出第一意译文本,基于在第一文本之后接收到的第二文本,将第一文本和第二文本输入到第一神经网络模型中,并且获取与第一文本和第二文本对应的第二翻译文本;以及将识别结果和第二翻译文本输入到第二神经网络模型中,并且获取与第二翻译文本对应的第二意译文本。

Description

电子装置及其控制方法
技术领域
本公开涉及一种电子装置及其控制方法,更具体地,涉及一种获取翻译文本的电子装置及其控制方法。
背景技术
由于电子技术的发展,各种类型的电子装置正在被开发和发布。特别地,诸如在不同语言之间执行翻译并向用户提供结果的翻译机器的电子装置正被积极地开发和发布。
然而,由于传统翻译机器的性能差,因此难以在现实生活中使用它们,特别是存在实时翻译性能非常差的问题。
例如,在实时翻译输入文本的情况下,存在翻译准确性差的问题。另外,在完成句子之后一次性翻译输入文本而非实时翻译文本的情况下,即使可提高翻译的准确性,存在等待时间增加的问题。
因此,对翻译方法的需求和讨论日益增长,通过在提高翻译准确性和可靠性的同时缩短从文本输入到翻译文本输出的等待时间,提供如同输入文本被实时翻译的效果。
发明内容
[技术问题]
提供了一种用于输出与输入文本对应的翻译文本的电子装置及其控制方法。
[技术方案]
根据本公开实施方式的一种用于实现上述目的电子装置,该电子装置包括扬声器、存储至少一个指令的存储器、以及与存储器电连接的处理器。处理器被配置为通过执行指令以:将第一文本输入到第一神经网络模型中,并且获取与第一文本对应的第一翻译文本;将第一翻译文本输入到第二神经网络模型中,并且获取与第一翻译文本对应的第一意译文本;基于第一文本和第一意译文本,识别第一意译文本能被输出;根据识别结果,控制扬声器输出第一意译文本;基于在第一文本之后接收到的第二文本,将第一文本和第二文本输入到第一神经网络模型中,并且获取与第一文本和第二文本对应的第二翻译文本;以及将识别结果和第二翻译文本输入到第二神经网络模型中,并且获取与第二翻译文本对应的第二意译文本。第二神经网络模型被配置为:基于根据识别结果而识别出已经输出了第一意译文本,将包括第一意译文本并且与第二翻译文本对应的第二意译文本输出为使得第一意译文本在词序上位于前面;以及基于识别出先前未输出第一意译文本,输出对应第二翻译文本的第二意译文本。
这里,处理器可:获取第一翻译文本与第一意译文本之间的句子相似度值;基于所获取的句子相似度值,识别第一意译文本是否能被输出;以及基于句子相似度值大于或等于第一阈值,控制扬声器输出第一意译文本。
另外,处理器可:获取第一意译文本的句子适合度值;基于所获取的句子适合度值,识别第一意译文本是否能被输出;以及基于句子适合度值大于或等于第二阈值,控制扬声器输出第一意译文本。
另外,处理器可:基于第二文本和第二意译文本,识别是否第二意译文本能被输出;基于识别出已经输出了第一意译文本、并且根据识别结果第二意译文本能被输出,控制扬声器输出第二意译文本中的除了第一意译文本之外的剩余部分;以及基于识别出未输出第一意译文本、并且第二意译文本能被输出,控制扬声器输出第二意译文本。
这里,处理器可:获取第二翻译文本与第二意译文本之间的句子相似度值;获取第二意译文本的句子适合度值;基于句子相似度值和句子适合度值,识别是否第二意译文本能被输出;以及基于句子相似度值大于等于第一阈值并且句子适合度值大于等于第二阈值,控制扬声器输出第二意译文本。
另外,处理器可:将第一文本和第二文本输入到第三神经网络模型中,并且获取关于第一文本和第二文本是否对应于一个短语的信息;以及将第二翻译文本和关于第一文本和第二文本是否对应于一个短语的信息输入到第二神经网络模型中,并且获取与第二翻译文本对应的第二意译文本。
这里,处理器可:基于根据输入信息识别出第一文本和第二文本对应于一个短语,以句子或短语的形式输出对应第二翻译文本的第二意译文本;以及基于识别出第一文本和第二文本不对应于一个短语,以非完整句子的形式输出对应第二翻译文本的第二意译文本。
另外,第二神经网络模型可基于多个文本来进行训练。多个文本可包括:基于从多个相应词组群中选择的至少一个词获取的第一句子文本,以及与第一句子文本的句子相似度值大于或等于第一阈值的第二句子文本;以及多个相应词组群可以是句子相似度值大于或等于第一阈值的词的集合。
另外,第二神经网络模型可基于多个文本来进行训练。多个文本可包括:基于两种不同语言之间的平行语料库获得的、与第一语言的第一句子文本对应的第二语言的第一翻译句子文本,以及通过将第一句子文本输入到第一神经网络模型中而获得的第二语言的第二翻译句子文本;以及第一翻译句子文本与第二翻译句子文本之间的句子相似度值可大于或等于第一阈值。
这里,构成第一翻译句子文本的多个词中的最前面的词和构成第二翻译句子文本的多个词中的最前面的词可以是彼此不同的词。
同时,根据本公开实施方式的电子装置的控制方法包括以下步骤:将第一文本输入到第一神经网络模型中,并且获取与第一文本对应的第一翻译文本;将第一翻译文本输入到第二神经网络模型中,并且获取与第一翻译文本对应的第一意译文本;基于第一文本和第一意译文本,识别第一意译文本是否能被输出;根据识别结果,输出第一意译文本;基于在第一文本之后接收到的第二文本,将第一文本和第二文本输入到第一神经网络模型中,并且获取与第一文本和第二文本对应的第二翻译文本;以及将识别结果和第二翻译文本输入到第二神经网络模型中,并且获取与第二翻译文本对应的第二意译文本,其中,第二神经网络模型被配置为:基于根据识别结果而识别出已经输出了第一意译文本,将包括第一意译文本并且与第二翻译文本对应的第二意译文本输出为使得第一意译文本在词序上位于前面;以及基于识别出先前未输出第一意译文本,输出对应第二翻译文本的第二意译文本。
这里,识别第一意译文本是否能被输出的步骤可包括以下步骤:获取第一翻译文本与第一意译文本之间的句子相似度值;以及基于所获取的句子相似度值,识别第一意译文本是否能被输出。输出第一意译文本的步骤可包括以下步骤:基于句子相似度值大于或等于第一阈值,输出第一意译文本。
另外,识别第一意译文本是否能被输出的步骤可包括以下步骤:获取第一意译文本的句子适合度值;以及基于所获取的句子适合度值,识别第一意译文本是否能被输出。输出第一意译文本的步骤可包括以下步骤:基于句子适合度值大于或等于第二阈值,输出第一意译文本。
另外,控制方法还可包括以下步骤:基于第二文本和第二意译文本,识别是否第二意译文本能被输出;基于识别出已经输出了第一意译文本、并且根据识别结果第二意译文本能被输出,输出第二意译文本中的除了第一意译文本之外的剩余部分;以及基于识别出未输出第一意译文本、并且第二意译文本能被输出,输出第二意译文本。
这里,识别是否第二意译文本能被输出的步骤可包括以下步骤:获取第二翻译文本与第二意译文本之间的句子相似度值;获取第二意译文本的句子适合度值;基于句子相似度值和句子适合度值,识别是否第二意译文本能被输出。输出第二意译文本的步骤可包括以下步骤:基于句子相似度值大于等于第一阈值并且句子适合度值大于等于第二阈值,控制扬声器输出第二意译文本。
另外,控制方法还可包括以下步骤:将第一文本和第二文本输入到第三神经网络模型中,并且获取关于第一文本和第二文本是否对应于一个短语的信息。获取与第二翻译文本对应的第二意译文本步骤可包括以下步骤:将第二翻译文本和关于第一文本和第二文本是否对应于一个短语的信息输入到第二神经网络模型中,并且获取与第二翻译文本对应的第二意译文本。
这里,第二神经网络模型可被配置为:基于根据输入信息识别出第一文本和第二文本对应于一个短语,以句子或短语的形式输出对应第二翻译文本的第二意译文本;以及基于识别出第一文本和第二文本不对应于一个短语,以非完整句子的形式输出对应第二翻译文本的第二意译文本。
另外,第二神经网络模型可基于多个文本来进行训练。多个文本可包括:基于从多个相应词组群中选择的至少一个词获取的第一句子文本;以及与第一句子文本的句子相似度值大于或等于第一阈值的第二句子文本;以及多个相应词组群可以是句子相似度值大于或等于第一阈值的词的集合。
另外,第二神经网络模型可基于多个文本来进行训练。多个文本可包括:基于两种不同语言之间的平行语料库获得的、与第一语言的第一句子文本对应的第二语言的第一翻译句子文本,以及通过将第一句子文本输入到第一神经网络模型中而获得的第二语言的第二翻译句子文本;以及第一翻译句子文本与第二翻译句子文本之间的句子相似度值可大于或等于第一阈值。
这里,构成第一翻译句子文本的多个词中的最前面的词和构成第二翻译句子文本的多个词中的最前面的词可以是彼此不同的词。
[有益效果]
根据如上所述的本公开各实施方式,可减少从输入文本到输出与输入文本对应的翻译文本所需的时间,并且可实施为用户提供实时翻译服务的效果。
另外,即使输入文本不是句子的形式,也可提高实时翻译结果的准确性和可靠性。
附图说明
从以下结合附图的描述中,本公开实施方式的上述和其它方面、特征和优点将变得更加明显,其中:
图1是示出根据本公开实施方式的电子装置的配置的框图;
图2是示出根据本公开实施方式的第一神经网络模型和第二神经网络模型的表;
图3是示出根据本公开实施方式的与文本、翻译文本和意译文本相关的过程的流程图;
图4是示出根据本公开实施方式的与文本、翻译文本和意译文本相关的过程的流程图;
图5是示出根据本公开实施方式的与文本、翻译文本和意译文本相关的过程的流程图;
图6是示出根据本公开实施方式的与文本、翻译文本和意译文本相关的过程的流程图;
图7是示出根据本公开实施方式的与文本、翻译文本和意译文本相关的过程的流程图;
图8是示出根据本公开实施方式的短语结尾(EOP)的图;
图9是示出根据本公开实施方式的第三神经网络模型处理的流程图;
图10a是示出根据本公开实施方式的多个文本的图;
图10b是示出根据本公开实施方式的多个文本的图;
图11a是示出根据本公开另一实施方式的多个文本的图;
图11b是示出根据本公开另一实施方式的多个文本的图;以及
图12是示出根据本公开实施方式的电子装置的控制方法的流程图。
具体实施方式
在下文中,将参考附图详细描述本公开的实施方式。
作为在本公开的实施方式中使用的术语,考虑到在本公开中描述的功能,尽可能地选择当前广泛使用的通用术语。然而,这些术语可根据本领域技术人员的意图、先前法律惯例或新技术的出现而变化。另外,在特定情况下,可能存在申请人自行指定的术语,并且在这种情况下,将在本公开的相关描述中详细描述这些术语的含义。因此,本公开中使用的术语应基于术语的含义和本公开的总体内容来定义,而不仅仅基于术语的名称。
另外,在本说明书中,诸如“具有”、“可具有”、“包括”和“可包括”的表述表示这种特征(例如诸如数字、功能、操作和部件的元件)的存在,并且不排除附加特征的存在。
另外,表述“A和/或B中的至少一个”应被解释为表示“A”或“B”或“A和B”中的任一个。
另外,在本说明书中使用的表述“第一”、“第二”等可用于描述各种元件,而不论任何顺序和/或重要程度。另外,这种表述仅用于将一个元件与另一元件区分开,而不旨在限制这些元件。
另外,本公开中的如下描述“一个元件(例如,第一元件)与另一元件(例如,第二元件)“(可操作地或通信地)联接”或一个元件(例如,第一元件)“连接到”另一元件(例如,第二元件)”应被解释为包括一个元件直接联接到另一元件的情况,以及一个元件通过又一元件(例如,第三元件)联接到另一元件的情况。
单数表述包括复数表述,除非在上下文中另有不同定义。另外,在本公开中,诸如“包括”和“由…组成”的术语应被解释为指定在说明书中描述的这些特征、数字、步骤、操作、元件、部件或其组合,但不应被解释为预先排除添加一个或多个其它特征、数字、步骤、操作、元件、部件或其组合的存在或可能性。
另外,在本公开中,“模块”或“部件”执行至少一个功能或操作,并且其可实施为硬件或软件、或实现为硬件和软件的组合。另外,除了需要实现为特定硬件的“模块”或“部分”之外,多个“模块”或“部分”可集成到至少一个模块中并且实现为至少一个处理器。
另外,在本说明书中,术语“用户”可指使用电子装置的人或使用电子装置的装置(例如,人工智能电子装置)。
在下文中,将参考附图更详细地描述本公开的实施方式。
图1是示出根据本公开实施方式的电子装置的配置的框图。
根据本公开实施方式的电子装置100可包括以下至少一种:例如但不限于,智能电话、平板PC、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、工作站、服务器、PDA、便携式多媒体播放器(PMP)、MP3播放器、医疗装置、相机、虚拟现实(VR)实现装置或可穿戴装置中的至少一个。另外,可穿戴装置可包括以下至少一种:附件型装置(例如,手表、戒指、手镯、脚镯、项链、眼镜、隐形眼镜或头戴式装置(HMD))、织物或衣服集成型的装置(例如,电子衣服)、身体附着型装置(例如,皮肤垫或纹身)、或生物可植入电路。
在一些实施方式中,电子装置100可包括以下至少一种:例如,电视机、数字视频磁盘(DVD)播放器、音频、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如,三星HOMESYNCTM、苹果TVTM或谷歌TVTM)、游戏机(例如,XBOXTM、PLAYSTATIONTM)、电子字典、电子钥匙、摄像机或电子相框。
在另一实施方式中,电子装置100可包括以下至少一种:例如,各种类型的医疗器械(各种类型的便携式医疗测量器械(诸如血糖仪、心率仪、血压仪或温度计等)、磁共振血管造影术(MRA)、磁共振成像(MRI)、计算机断层摄影(CT)、摄影装置或超声器械等)、导航装置、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐装置、用于船舶的电子装置(例如,用于船舶的导航装置、陀螺仪等)、航空电子装置、安全装置、用于车辆的头部单元、工业或家用机器人,无人机、金融机构的ATM、商店的销售点(POS)、或物联网(IoT)装置(例如,灯泡、各种类型的传感器、洒水装置,火灾报警器、恒温器、路灯、烤面包机、运动设备、热水箱、加热器、锅炉等)。
特别地,根据本公开实施方式的电子装置100可实施为获取与用户的输入对应的文本、翻译所获取的文本并输出文本的各种类型的装置。这里,用户的输入可包括用户的语音、由用户输入的文本、从外部装置接收的信号等。
另外,电子装置100可翻译所获取的文本并通过扬声器110输出文本。根据本公开实施方式的扬声器110可输出音频信号。在这种情况下,扬声器110可实施为至少一个扬声器单元。作为示例,扬声器110可包括用于再现多声道的多个扬声器单元。例如,多个扬声器单元可分别输出不同的频带。
尽管在本实施方式中描述了电子装置100包括扬声器110,使得电子装置100翻译对应于用户输入的文本,并且根据本公开各实施方式通过扬声器110输出文本。然而,这仅仅是示例,并且本公开不限于此。例如,电子装置100可通过显示器输出经翻译的文本。
存储器120可存储在本公开各实施方式中要使用的数据。存储器120可实施为以嵌入在电子装置100中的存储器的形式,或者可实施为以根据存储数据的使用而附接到电子装置100或与电子装置100分离的存储器的形式。
例如,用于操作电子装置100的数据可存储在嵌入在电子装置100中的存储器中,并且用于电子装置100扩展功能的数据可存储在可附接到电子装置100或与电子装置100分离的存储器中。在存储器被嵌入电子装置100的情况下,存储器可实施为易失性存储器或非易失性存储器中的至少一种,其中易失性存储器例如:动态RAM(DRAM)、静态RAM(SRAM)或同步动态RAM(SDRAM)等;非易失性存储器例如:一次性可编程ROM(OTPROM)、可编程ROMPROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩模ROM、闪存ROM、闪存存储器(例如,NAND闪存或NOR闪存等)、硬盘驱动器或固态驱动器(SSD)。另外,在存储器可附接到电子装置100或与电子装置100分离的情况下,存储器可实施为诸如存储卡(例如,紧凑型闪存(CF)、安全数字(SD)、微型安全数字(micro-SD)、迷你安全数字(mini-SD)、极限数字(xD)、多媒体卡(MMC)等)、可连接到USB端口的外部存储器(例如,USB存储器)等的形式。
根据本公开的实施方式,存储器120可存储包括用于控制电子装置100的至少一个指令的计算机程序。
根据本公开的另一实施方式,存储器120可存储关于包括多个层的人工智能模型的信息。这里,存储关于人工智能模型的信息可表示存储与人工智能模型的操作相关的各种信息,例如,关于包括在人工智能模型中的多个层的信息,关于在多个相应层中使用的参数的信息(例如,滤波器系数、偏差等)等。
例如,根据本公开的实施方式,存储器120可存储被训练为将第一语言的文本翻译成第二语言的第一神经网络模型。另外,存储器120可存储被训练为意译文本的第二神经网络模型。稍后将提供关于第一神经网络模型和第二神经网络模型的详细说明。
根据本公开实施方式的处理器130控制电子装置100的整体操作。
根据本公开的实施方式,处理器130可实施为例如,处理数字图像信号的数字信号处理器(DSP)、微处理器、人工智能(AI)处理器和定时控制器(T-CON)。然而,本公开不限于此,并且处理器130可包括中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)或通信处理器(CP)以及ARM处理器中的一个或多个,或者可由相应术语来定义。另外,处理器130可实施为存储有处理算法或大规模集成(LSI)的片上系统(SoC)、或现场可编程门阵列(FPGA)的形式。
特别地,处理器130可识别用户语音并输入对应于该用户语音的文本,或者识别根据用户输入到第一神经网络模型中的文本并获取对应于该文本的翻译文本。例如,在处理器130中提供的自动语音识别(ASR)模块可识别通过输入器(例如,麦克风)接收的用户语音,并且获取对应于该用户语音的文本。稍后将提供关于这一点的详细说明。
根据本公开实施方式的处理器130可将文本输入到第一神经网络模型中并获取翻译文本。这里,第一神经网络模型可以是被训练为将第一语言的文本机器翻译成第二语言的模型。第一神经网络模型可以是统计机器翻译(SMT)模型或神经机器翻译(NMT)模型。这里,神经机器翻译模型不是单独地翻译词,而是以整个句子和短语为单位来执行翻译,因此,其产生的效果是输出自然且完成度高的翻译。
根据本公开实施方式的处理器130可将第一语言的第一文本输入到第一神经网络模型中,并且获取第二语言的第一翻译文本。
例如,如果接收到与“运动员”对应的韩语文本作为第一文本,则处理器130可将与“运动员”对应的韩语文本输入到第一神经网络模型中,并且获取“运动员”作为与第一文本对应的第一翻译文本。上述示例假设第一神经网络模型接收韩语文本作为输入,并且将输入文本从“韩语”翻译为“英语”,但是本公开不限于此。例如,处理器130可通过使用第一神经网络模型来获取从“英语”翻译成“韩语”的翻译文本,并且可选地,处理器130可获取翻译成各种语言的翻译文本。例如,处理器130可通过使用第一神经网络模型来获取从“西班牙语”翻译成“英语”的文本。
然后,处理器130可将第一翻译文本输入到第二神经网络模型中,并且获取与第一翻译文本对应的第一意译文本。
这里,由第二神经网络模型输出的意译文本可表示如下文本:其含义与翻译文本的含义相同或相似但是包括与翻译文本中所包括的词不同的词的文本,或者包括在翻译文本中的句子成分(例如,主语、对象、谓词等)被不同地排列的文本。例如,如果第一翻译文本是“运动员”,则第二神经网络模型可输出“运动者”或“参赛者”中的任何一个作为与第一翻译文本对应的第一意译文本。然而,这仅仅是示例,并且本公开不限于此。例如,由第二神经网络模型输出的第一意译文本可与第一翻译文本相同。作为示例,第二神经网络模型可输出“运动员”作为与第一翻译文本“运动员”对应的第一意译文本。
然后,处理器130可基于第一翻译文本和第一意译文本来识别第一意译文本是否可被输出。
例如,处理器130可获取第一翻译文本“运动员”与第一意译文本“运动员”之间的句子相似度值,并且如果所获取的句子相似度值大于或等于第一阈值,则处理器130可输出第一意译文本。根据本公开实施方式的句子相似度值是第一语言的第一文本与第二语言的第一意译文本之间的含义相似程度被数字化的值,并且其可被表示为0到1的值。当句子相似度值接近1时,可表示第一语言的第一文本的含义与第二语言的第一意译文本的含义相同或相似。同时,第一阈值可以是0.5,但是这仅仅是示例,并且本公开不限于此。
如果句子相似度值大于或等于第一阈值,则根据本公开实施方式的处理器130可识别出第一意译文本可被输出。在这种情况下,处理器130可控制扬声器110输出第一意译文本。例如,处理器130可通过使用文本到语音(TTS)模型将第一意译文本转换为语音,并通过扬声器110输出经转换的语音。
根据本公开实施方式的处理器130可获取第一意译文本的句子适合度值,并且如果所获取的句子适合度值大于或等于第二阈值,则处理器130可输出第一意译文本。在上述实施方式中,基于假设意译文本是一个词(例如,“运动员”)的情况来进行描述,但是根据本公开各实施方式,意译文本可以是包括多个词的句子形式的文本。
如果包括多个词(即,并非仅包括一个词)的句子形式的意译文本不遵循语法(不合语法),则处理器130可识别出意译文本不能被输出。
根据本公开实施方式的处理器130可数字化意译文本的句子适合度,例如,意译文本是否遵循语法,是否存在句子成分(例如,主语、动词、对象等)等,并且获取句子适合度值。作为示例,句子适合度值可被表示为0到1的值,并且由于该值更接近1,这可表示意译文本的句子适合度较高。也就是说,当句子的适合度值接近1时,可表示意译文本遵循语法,并且是完整句式。
然后,如果意译文本的句子适合度值大于或等于第二阈值,则处理器130可识别出意译文本可被输出。同时,第二阈值可以是0.5,但是本公开不限于此。
根据本公开实施方式的处理器130可识别意译文本可被输出被限制为如下情况,其中i)第一语言的文本与第二语言的意译文本之间的句子相似度值,以及ii)第二语言的意译文本的句子适合度值两者都大于或等于对应阈值。另外,在另一实施方式中,处理器130可识别在句子相似度值和句子适用性值中的任何一个大于或等于对应阈值的情况下可输出意译文本。
本公开各实施方式提供了一种翻译实时输入的用户语音(或文本)并输出翻译的口译服务(或口译程序),同时缩短从输入用户语音的时间点到输出经翻译语音的时间点的时间,使得用户能感觉到如同语音或文本被实时翻译。
在下文中,将描述在前述第一文本之后接收的第二文本被翻译然后被输出的各种实施方式。关于这一点,将参考图2进行解释。
图2是示出根据本公开实施方式的第一神经网络模型1和第二神经网络模型2的表。
根据本公开实施方式的处理器130可将在第一文本之后接收的第二文本输入到第一神经网络模型1中,并且获取与第一文本和第二文本对应的第二翻译文本。
根据本公开的实施方式,第一神经网络模型1可以是序列到序列模型。这里,序列表示相互关联的连续数据,并且可将诸如本公开中的第一文本和第二文本的预定单元(例如,语素、词等)的文本视为序列的示例。
当输入第一文本和第二文本时,根据本公开实施方式的第一神经网络模型1可考虑第一文本和第二文本两者来输出翻译文本(即,第二翻译文本)。如上所述,第一神经网络模型1不是传统的统计机器翻译(SMT)模型,而是基于人工神经网络的神经机器翻译(NMT)模型,并且NMT模型可通过将整个第一文本和第二文本识别为一个翻译单元来执行机器翻译,而不是单独翻译第一文本和第二文本中的每个。
<步骤1和步骤2>
参考图2,出于说明的目的,假设输入第一文本,其是与“运动员”对应的韩语文本(步骤1),然后输入第二文本,其是与“在伦敦奥林匹克”对应的韩语文本(步骤2)。
步骤1——以上描述了根据本公开实施方式的处理器130获取对应于第一文本的第一意译文本“运动员”,该第一文本是对应于“运动员”的韩语文本。
步骤2——H-处理器130可将第二文本输入到第一神经网络模型1中,该第二文本是与在第一文本之后接收的“在伦敦奥林匹克”对应的韩语文本。这里,第一神经网络模型1可考虑第一文本和第二文本两者来输出与第一文本和第二文本对应的第二翻译文本,其中第一文本是与“运动员”对应的韩语文本,第二文本是与“在伦敦奥林匹克”对应的韩语文本。
参考图2,处理器130可获取与第一文本和第二文本对应的第二翻译文本“在伦敦奥林匹克,运动员”。
根据本公开实施方式的处理器130可将是否输出了在步骤1中获取的第一意译文本(或者关于第一意译文本是否可被输出的识别结果)以及第二翻译文本“在伦敦奥林匹克,运动员”输入到第二神经网络模型2中,并且获取与第二翻译文本对应的第二意译文本。
例如,假设作为与“运动员”对应的韩语文本的第一文本与在步骤1中的第一意译文本“运动员”之间的句子相似度值为0.7,因此句子相似度值大于或等于第一阈值;并且第一意译文本“运动员”的句子适合度值为0.9,因此句子适合度值大于或等于所述第二阈值。因此,处理器130识别出第一意译文本“运动员”可被输出,并且输出第一意译文本“运动员”。在这种情况下,接收与“在伦敦奥林匹克”对应的韩语文本的第二文本。
在这种情况下,如果根据识别结果(即,第一意译文本是否可被输出)识别出已经输出了第一意译文本,则第二神经网络模型2可将包括第一意译文本“运动员”并且对应于第二翻译文本“在伦敦奥林匹克,运动员”的第二意译文本“运动员在伦敦奥林匹克”输出为使得第一意译文本“运动员”在词序上位于前面。
作为另一示例,与图2所示的不同,可假设步骤1中的第一意译文本的句子相似度值或句子适合度值中的至少一个小于阈值,从而识别出第一意译文本不能被输出。因此,处理器130不输出第一意译文本,并且在这种状态下,接收第二文本。
在这种情况下,如果根据识别结果识别出未输出第一意译文本,则第二意译文本不必包括第一意译文本“运动员”,或者其中第一意译文本“运动员”不必在词序上位于前面,因此第二神经网络模型2可输出与第二翻译文本“在伦敦奥林匹克,运动员”相同的“在伦敦奥林匹克,运动员”作为第二意译文本。
例如,如图2中的步骤1,可假设处理器130输出在获取第二翻译文本“在伦敦奥林匹克,运动员”之前获取的第一翻译文本“运动员”,用于提供实时翻译(或口译)服务。
然后,如图2中的步骤2,接收作为与“在伦敦奥林匹克”对应的韩语文本的第二文本,因此,处理器130通过将作为与“运动员”对应的韩语文本的第一文本和作为与“伦敦奥林匹克”对应的韩语文本的第二文本输入到第一神经网络模型1中,获得第二翻译文本“在伦敦奥林匹克,运动员”,并且输出第二翻译文本“在伦敦奥林匹克,运动员”。在这种情况下,从用户角度而言,使用户顺序地听到(在步骤1中输出的)“运动员”和(在步骤2中输出的)“在伦敦奥林匹克,运动员”,由于用户冗余地听到一些表述(或一些短语),因此存在使翻译可靠性劣化的问题。
作为另一示例,如果为了提供自然且语义正确的翻译,处理器130在接收到足够长的用户语音之后(例如,在接收到对应于一个完整句子的用户语音之后)翻译用户语音并输出翻译,则存在从输入用户语音的时间点到输出经翻译语音的时间点会耗费较长时间的问题(即,等待时间增加)。
因此,为了解决上述问题,根据本公开各实施方式的处理器130可翻译(或意译)接收的文本,然后,如果识别出翻译文本(或意译文本)可被输出,则处理器130可先通过扬声器110输出该文本。
然后,在翻译(或意译)新接收的文本时,处理器130不是简单地翻译新接收文本并输出对新接收文本的翻译,而是如果存在先前输出的翻译文本(或意译文本),则处理器130会考虑到先前输出的翻译文本来意译新接收的文本,然后输出意译。
详细地,参考图2,第二神经网络模型2可考虑关于是否可输出第一意译文本“运动员”的识别结果,输出与第二翻译文本“在伦敦奥林匹克,运动员”对应的第二意译文本。
例如,如果识别出已经输出了第一意译文本“运动员”,则第二神经网络模型2可输出第二意译文本“运动员在伦敦奥林匹克”,其被意译以满足如下条件:条件1)第一意译文本“运动员”在词序上位于最前面,以及条件2)在语义上类似于第二翻译文本“在伦敦奥林匹克,运动员”。
然后,处理器130可基于第二翻译文本和第二意译文本来识别第二意译文本是否可被输出。
根据本公开的实施方式,处理器130可获取第二翻译文本“在伦敦奥林匹克,运动员”与第二意译文本“运动员在伦敦奥林匹克”之间的句子相似值。
另外,处理器130可获取第二意译文本“运动员在伦敦奥林匹克”的句子适合度值。
然后,如果第二翻译文本与第二意译文本之间的句子相似度值大于或等于第一阈值,和/或第二意译文本的句子适合度值大于或等于第二阈值,则处理器130可识别出第二意译文本可被输出,并控制扬声器110输出第二意译文本。
如果识别出已经输出了第一意译文本、并且第二意译文本可被输出,则处理器130可控制扬声器110输出除了第二意译文本中的第一意译文本之外的剩余部分。
例如,参考图2,如果在步骤1中识别出已经输出了第一意译文本“运动员”、并且识别出第二意译文本“运动员在伦敦奥林匹克”可被输出,则处理器130可控制扬声器110输出第二意译文本“运动员在伦敦奥林匹克”中的除了第一意译文本“运动员”之外的剩余部分“在伦敦奥林匹克”。
根据上述方法,可实现以下效果。处理器130可无需等待直至输入了对应于“运动员在伦敦奥林匹克”的整个韩语文本,即使当仅接收到对应于“运动员”的韩语文本时,处理器130也可输出“运动员”,因此可减少等待时间。另外,在对应于“运动员”的韩语文本之后顺序地接收到对应于“在伦敦奥林匹克”的韩语文本的情况下,处理器130可通过扬声器110输出“在伦敦奥林匹克”。从用户角度而言,顺序地向用户提供了“运动员”和“在伦敦奥林匹克”,因此用户可感觉到如同向用户提供了实时翻译服务(或口译服务)。
这里,第二神经网络模型2是被训练为进行如下操作的模型:如果顺序地输入第一翻译文本和第二翻译文本,则在维持或固定与先输入的第一翻译文本对应的第一意译文本的同时,输出在语义上类似于第二翻译文本的第二意译文本。第二神经网络模型2可实施为递归神经网络(RNN)、受限玻尔兹曼机器(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、卷积神经网络(CNN)或深度Q网络等,但不限于此。
下面详细描述用于第二神经网络模型2的在维持或固定与先输入的第一翻译文本对应的第一意译文本的同时意译第二翻译文本的方法。
参考图2所示的步骤1,处理器130可基于是否可输出通过第二神经网络模型2获取的第一意译文本,输出或不输出第一意译文本。
作为示例,处理器130可将第一翻译文本和与第一翻译文本对应的第一意译文本输入到神经网络模型中,该神经网络模型被训练为输出翻译文本与意译文本之间的句子相似度值,并且获取第一翻译文本与第一意译文本之间的句子相似度值。
如果句子相似度值大于或等于第一阈值,则处理器130可输出通过第二神经网络模型2获取的第一意译文本。
例如,参考图2中的步骤4,处理器130可获取第一翻译文本“如果运动员在伦敦奥林匹克服药”与第一意译文本“在伦敦奥林匹克服药的运动员将”之间的句子相似度值,并且如果句子相似度值大于或等于第一阈值0.5。处理器130可输出第一意译文本“在伦敦奥林匹克服药的运动员将”。
参考图2中的步骤5,根据本公开实施方式的处理器130可基于与“如果运动员在伦敦奥林匹克服药,则被抓获”对应的韩语文本,该韩语文本包括新接收的对应于“被抓获”的韩语文本,将是否已经输出了第一意译文本“在伦敦奥林匹克服药的运动员将”(或者关于第一意译文本是否可被输出的识别结果)、以及第二翻译文本“如果运动员在伦敦奥林匹克服药,则被抓获”输入到第二神经网络模型2中。
然后,第二神经网络模型2可输出与第二翻译文本“如果运动员在伦敦奥林匹克服药,则被抓获”对应的第二意译文本,其中第二意译文本满足如下两个条件。首先,第二意译文本可包括第一意译文本“在伦敦奥林匹克服药的运动员将”。
其次,在第二意译文本内,第一意译文本“在伦敦奥林匹克服药的运动员将”在词序上可位于最前面。
因此,第二神经网络模型2可输出与第二翻译文本“如果运动员在伦敦奥林匹克服药,则被抓获”对应的第二意译文本“在伦敦奥林匹克服药的运动员被抓获”。
然后,处理器130可识别第二意译文本“在伦敦奥林匹克服药的运动员被抓获”是否可被输出。
在图2中的步骤4和步骤5中,仅仅描述了如下实施方式,该实施方式考虑翻译文本与意译文本之间的句子相似度值是否大于或等于关于意译文本是否可被输出的第一阈值。然而,这仅仅是示例,并且在另一实施方式中,可考虑句子适合度值以及句子相似度值来识别意译文本是否可被输出。
参考图2中的步骤5,处理器130可获得第二意译文本“在伦敦奥林匹克服药的运动员被抓获”的句子适合度值。例如,处理器130可通过将意译文本输入到被训练为输出句子适合度值的神经网络模型中来获取句子适合度值。
根据本公开的实施方式,如果第二意译文本“在伦敦奥林匹克服药的运动员被抓获”的句子适合度值小于第二阈值,即使第二翻译文本“如果运动员在伦敦奥林匹克服药,则被抓获”与第二意译文本“在伦敦奥林匹克服药的运动员被抓获”之间的句子相似度值大于或等于第一阈值,处理器130也可识别出第二意译文本“在伦敦奥林匹克服药的运动员被抓获”不能被输出。
然后,参考图2中的步骤6,处理器130可基于与“如果运动员在伦敦奥林匹克服药,则他们可能被抓获”对应的韩语文本,该韩语文本包括新接收的文本“可能”,则将第三翻译文本“如果运动员在伦敦奥林匹克服药,则他们可能被抓获”输入到第二神经网络模型2中。
然后,第二神经网络模型2可输出与第三翻译文本“如果运动员在伦敦奥林匹克服药,则他们可能被抓获”对应的第三意译文本“在伦敦奥林匹克服用药物的运动员将被抓获”。
这里,由第二神经网络模型2输出的第三意译文本“在伦敦奥林匹克服用药物的运动员将被抓获”满足如下两个条件。
首先,在步骤5中,处理器130识别出由第二神经网络模型2输出的第二意译文本“在伦敦奥林匹克服药的运动员被抓获”不能被输出,因此,在步骤6中由第二神经网络模型2输出的第三意译文本包括在步骤5之前的步骤(即,步骤1至步骤4)中通过扬声器110输出的“在伦敦奥林匹克服药的运动员将”。
其次,在步骤6中,第二神经网络模型2可输出第三意译文本,其中在步骤1至步骤4中通过扬声器110输出的“在伦敦奥林匹克服药的运动员将”在词序上位于最前面。
也就是说,如果识别出在当前步骤(例如,步骤N)之前的步骤(例如,步骤N-1)中通过第二神经网络模型2获取的意译文本不能被输出,则第二神经网络模型2可输出意译文本,其中,并非在先前步骤(例如,步骤N-1)中获取的意译文本而是在其前一步骤(例如,步骤N-2)中被识别出能够输出的意译文本在词序上位于最前面,并且其对应于当前步骤(例如,步骤N)的翻译文本。
在第三意译文本“在伦敦奥林匹克服用药物的运动员将被抓获”中,处理器130可仅顺序地输出剩余文本“被抓获”,而不包括在步骤1到步骤4中通过扬声器110输出的“在伦敦奥林匹克服用药物的运动员将”。
参考图2,处理器130可在接收到对应于“如果运动员在伦敦奥林匹克服药,则他们可能被抓获”的整个韩语文本之前,顺序地输出步骤1中的“运动员”、步骤2中的“在伦敦奥林匹克”、步骤4中的“服药将”、以及步骤6中的“被抓获”,并且从用户角度而言,会产生向用户提供如同被实时(或基本上实时)翻译的文本的效果。
图3至图7是示出根据本公开实施方式的与文本、翻译文本和意译文本相关的过程的流程图。
参考图3至图7,将通过实施方式来解释与文本、翻译文本和意译文本有关的过程。
首先,图3对应于图2中的步骤1,并且假设接收到构成句子的多个词中的第一个词。
可假设用户以第一语言(非英语)讲出与“我们”对应的词的情况。在这种情况下,当在操作S11中通过麦克风接收到用户语音(即,对应于“我们”)时,在操作S12中,处理器130可执行语音识别并获取与“我们”对应的第一语言的第一文本。例如,处理器130可通过使用自动语音识别模型、语音到文本(STT)模型等来获取与用户语音对应的文本。
然后,在操作S13中,处理器130可通过第一神经网络模型1来识别与第一文本对应的第二语言(例如,英语)的第一翻译文本“我们”。
然后,在操作S14中,处理器130可将第一翻译文本“我们”输入到第二神经网络模型2中并获取第一意译文本“我们的”。
根据本公开实施方式的处理器130可识别第一意译文本“我们的”是否可被输出,具体地,处理器130可获取与第一意译文本“我们的”对应的句子相似度值和句子适合度值。
首先,参考图3,处理器130可识别第一翻译文本“我们”与第一意译文本“我们的”之间的句子相似度值,并且如果句子相似度值大于或等于第一阈值(例如,0.5)(在操作S15中为“是”),则处理器130可在操作S16中识别第一意译文本“我们的”的句子适合度值。
在操作S16中,如果第一意译文本“我们的”的句子适合度值大于或等于第二阈值(例如,0.5)(S16为“是”),则处理器130可确定出第一意译文本“我们的”可被输出,并通过TTS模型将第一意译文本“我们的”转换为声音信号,并且通过扬声器110输出信号。
作为另一示例,如果在操作S15中句子相似度值小于第一阈值(S15:否)、或者在操作S16中句子适合度值小于第二阈值(S16:否),则处理器130可确定出第一意译文本“我们的”不能被输出,并且结束相应步骤(即,步骤1)。
在下文中,为了便于解释,将基于如下假设来进行解释:与第一意译文本对应的句子相似度值或句子适用性值中的至少一个被识别为小于阈值,并且确定出第一意译文本不能被输出。
接下来,图4对应于图2中的步骤2,并且假设接收到构成句子的多个词中的第二个词。
可假设用户以第一语言讲出与“所有人”对应的词的情况。在这种情况下,当在操作S21中通过麦克风接收到用户语音(即,对应于“所有人”)时,在操作S22中,处理器130可执行语音识别并获取对应于“所有人”的第一语言的第二文本。
然后,在操作S23,处理器130可将与“我们”对应的第一语言的第一文本和与“所有人”对应的第一语言的第二文本输入到第一神经网络模型1中,并且获取第二语言(例如,英语)“我们所有人”的第二翻译文本。
然后,在操作S24中,处理器130可将第二翻译文本“我们所有人”输入到第二神经网络模型2中,并且获取第二意译文本“我们所有人”。同时,上面描述了翻译文本和与翻译文本对应的意译文本可以是相同的。
在操作S24中,第二神经网络模型2可考虑是否输出了第一意译文本(或者其是否可被输出)以及第二翻译文本“我们所有人”,输出与第二翻译文本“我们所有人”对应的第二意译文本。
例如,在图3所示的步骤1中,如果确定出第一意译文本“我们的”可被输出并且通过扬声器110输出了该文本,则在操作S24中,第二神经网络模型2可输出第二意译文本,其中第一意译文本“我们的”在词序上位于最前面,并且第二意译文本在语义上类似于第二翻译文本“我们所有人”。然而,如上所述,可假设在图3所示的步骤1中第一意译文本“我们的”不能被输出的情况,并且在操作S24中,第二神经网络模型2可输出第二意译文本“我们所有人”。
然后,处理器130可识别第二翻译文本“我们所有人”与第二意译文本“我们所有人”之间的句子相似度值,并且如果句子相似度值大于或等于第一阈值(例如,0.5)(在操作S25中为“是”),则处理器130可在操作S26中识别第二意译文本“我们所有人”的句子适合度值。
在操作S26中,如果第二意译文本“我们所有人”的句子适合度值大于或等于第二阈值(例如,0.5)(S26为“是”),则处理器130可确定第二意译文本“我们所有人”可被输出,并且在操作S27中通过TTS模型将第二意译文本“我们所有人”转换为声音信号,并通过扬声器110输出信号。
在下文中,为了便于解释,将基于如下情况的假设进行解释:其中,与第二意译文本对应的句子相似度值和句子适合度值分别被识别为大于或等于阈值,并且基于此,确定出第二意译文本可被输出。然而,这仅仅是示例,本公开不限于此。
接下来,图5是图2中的步骤3,并且假设接收到构成句子的多个词中的第三个词。
可假设用户以第一语言讲出与“这段时间很困难,但是”对应的短语的情况。在这种情况下,当在操作S31中通过麦克风接收到用户语音(即,对应于“这段时间很困难,但是”)时,在操作S32中,处理器130可执行语音识别并获取第三文本“这段时间很困难,但是”。
然后,在操作S33中,处理器130可将第一文本“我们”、第二文本“所有人”和第三文本“这段时间很困难,但是”输入到第一神经网络模型1中,并且获取第三翻译文本“这段时间对于每个人都很困难,但是”。
然后,在操作S34中,处理器130可将第三翻译文本“这段时间对于每个人都很困难,但是”输入到第二神经网络模型2中,并且获取第三意译文本“现在这段时间对于我们所有人都很困难,但是”。
在操作S34中,第二神经网络模型2可考虑是否输出了第二意译文本(或者其是否可被输出)以及第三翻译文本“这段时间对于每个人都很困难,但是”,输出与第三翻译文本“这段时间对于每个人都很困难,但是”对应的第三意译文本。
例如,在图4所示的步骤2中,如果确定出第二意译文本“我们所有人”可被输出、并且通过扬声器110输出了该文本,则在操作S34中,第二神经网络模型2可输出第三意译文本“现在这段时间对于我们所有人都很困难,但是”,其中第二意译文本“我们所有人”在词序上位于最前面,并且第三意译文本在语义上类似于第三翻译文本“这段时间对于每个人都很困难,但是”。
然后,处理器130可识别第三翻译文本“这段时间对于每个人都很困难,但是”与第三意译文本“现在这段时间对于我们所有人都很困难,但是”之间的句子相似度值,并且如果句子相似度值大于或等于第一阈值(例如,0.5)(在操作S35中为“是”),则处理器130可在操作S36中识别第三意译文本“现在这段时间对于我们所有人都很困难,但是”的句子适合度值。
在操作S36中,如果第三意译文本“现在这段时间对于我们所有人都很困难,但是”的句子适合度值大于或等于第二阈值(例如,0.5)(S36为“是”),则在操作S37中,处理器130可确定第三意译文本“现在这段时间对于我们所有人都很困难,但是”可被输出,并且通过TTS模型将第三意译文本“现在这段时间对于我们所有人都很困难,但是”转换为声音信号,并且通过扬声器110输出该信号。
同时,在操作S37中,仅排除了先前在操作S27中通过扬声器110输出的“我们所有人”之外的部分“现在这段时间很困难,但是”可被转换为声音信号,然后通过扬声器110输出。
作为另一示例,如果确定出在图3所示的步骤1中第一意译文本“我们的”不能被输出、并且确定出在图4所示的步骤2中第二意译文本“我们所有人”不能被输出,则在操作S34中,第二神经网络模型2可输出“这段时间对于每个人都很困难,但是”作为与第三翻译文本对应的第三意译文本。
接下来,图6对应于图2中的步骤4,并且假设接收到构成句子的多个词中的第四个词。
可假设用户以第一语言讲出与“互相帮助”对应的短语的情况。在这种情况下,当在操作S41中通过麦克风接收到用户语音(即,对应于“互相帮助”)时,在操作S42中,处理器130可执行语音识别并获取第四文本“互相帮助”。
然后,在操作S43中,处理器130可将对应于“我们”的第一文本、对应于“所有人”的第二文本、对应于“这段时间很困难,但是”的第三文本和对应于“互相帮助”的第四文本输入到第一神经网络模型1中,并且获取第四翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助”。
然后,在操作S44中,处理器130可将第四翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助”输入到第二神经网络模型2中,并且获取第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”。
在操作S44中,第二神经网络模型2可考虑是否输出了第三意译文本(或者其是否可被输出)以及第四翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助”,输出与第四翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助”对应的第四意译文本。
例如,在图5所示的步骤3中,如果确定出第三意译文本“现在这段时间对于我们所有人都很困难,但是”可被输出,并且通过扬声器110输出了该文本,则在操作S44中,第二神经网络模型2可输出第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”,其中第三意译文本“现在这段时间对于我们所有人都很困难,但是”在词序中位于最前面,并且第四意译文本在语义上类似于第四翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助”。
然后,处理器130可识别第四翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助”与第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”之间的句子相似度值,并且如果句子相似度值大于或等于第一阈值(例如,0.5)(在操作S45中为“是”),则在操作S46中,处理器130可识别第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”的句子适合度值。
在操作S46中,如果第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”的句子适合度值大于或等于第二阈值(例如,0.5)(S46为“是”),则处理器130可确定第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”可被输出,并且通过TTS模型将第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”转换为声音信号,并且通过扬声器110输出该信号。
同时,在操作S47中,仅排除了先前在操作S27和操作S37中通过扬声器110输出的“我们所有人”和“现在这段时间很困难,但是”之外的部分“彼此相互帮助”可被转换成声音信号,然后通过扬声器110输出。
作为另一示例,如果在操作S45中确定出句子相似度值小于第一阈值(S45为“否”)、或者在操作S46中确定出句子适合度值小于第二阈值(S46为“否”),则处理器130可确定第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”不能被输出,并且结束相应步骤(即,步骤4)。
接下来,图7对应于图2中的步骤5,并且假设接收到构成句子的多个词中的最后一个词。
可假设用户以第一语言讲出与“互相鼓励”对应的短语的情况。在这种情况下,当在操作S51中通过麦克风接收到用户语音(即,对应于“互相鼓励”)时,在操作S52中,处理器130可执行语音识别并获取第五文本“互相鼓励”。
然后,在操作S53中,处理器130可将对应于“我们”的第一文本、对应于“所有人”的第二文本、对应于“这段时间很困难,但是”的第三文本、对应于“互相帮助”的第四文本和对应于“互相鼓励”的第五文本输入到第一神经网络模型1中,并且获得第五翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助和鼓励”。
然后,在操作S54中,处理器130可将第五翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助和鼓励”输入到第二神经网络模型2中,并且获得第五意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助和支持”。
在操作S54中,第二神经网络模型2可考虑是否输出了第四意译文本(或者其是否可被输出)以及第五翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助和鼓励”,输出与第五翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助和鼓励”对应的第五意译文本。
例如,在图6所示的步骤4中,如果确定出第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”可被输出,并且通过扬声器110输出了该文本,则在操作S54中,第二神经网络模型2可输出第五意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助和支持”,其中第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”在词序中位于最前面,并且第五意译文本在语义上类似于第五翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助和鼓励”。
然后,处理器130可识别第五翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助和鼓励”与第五意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助和支持”之间的句子相似度值,并且如果句子相似度值大于或等于第一阈值(例如,0.5)(在操作S55中为“是”),则在操作S56中,处理器130可识别第五意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助和支持”的句子适合度值。
在操作S56中,如果第五意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助和支持”的句子适合度值大于或等于第二阈值(例如,0.5)(S56为“是”),则在操作S57中,处理器130可确定第五意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助和支持”可被输出,并且通过TTS模型将第五意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助和支持”转换为声音信号,并且通过扬声器110输出该信号。
同时,在操作S57中,仅排除了先前在操作S27、操作S37和操作S47中通过扬声器110输出“我们所有人”、“现在这段时间很困难,但是”和“彼此互相帮助”之外的部分“和支持”可被转换成声音信号,然后通过扬声器110输出。
图8是示出根据本公开实施方式的短语结尾(EOP)的图。
图8示出了对文本、翻译文本、意译文本、句子相似度值、句子适合度值进行组织,并输出参考图3至图7中的流程图所解释的步骤1至步骤5中的每个I的表。另外,参考图8中的表,添加了短语结尾项,并且在下文中,将解释短语结尾(在下文中被称为EOP)。
参考步骤2,根据本公开实施方式的处理器130可将第一文本和第二文本输入到第三神经网络模型3中,其中第一文本是对应于“我们”的韩语文本,第二文本是对应于“所有人”的韩语文本,并且获取关于第一文本和第二文本是否对应于一个短语的信息。然后,处理器130可将由第一神经网络模型1输出的第二翻译文本和由第三神经网络模型3输出的关于第一文本和第二文本是否对应于一个短语的信息输入到第二神经网络模型2中,并且获取与第二翻译文本对应的第二意译文本。同时,第三神经网络模型3可以是被训练为用于确定输入文本是否对应于一个短语的模型。
根据本公开的实施方式,如果基于通过处理器130输入的信息而识别出第一文本和第二文本对应于一个短语,则第二神经网络模型2可以以句子的形式或以短语的形式输出对应第二翻译文本的第二意译文本。作为另一示例,如果识别出第一文本和第二文本不对应于一个短语,则第二神经网络模型2可以以非完整句子的形式输出与第二翻译文本对应的第二意译文本。
参考图8,在步骤2中,处理器130可识别第一文本和第二文本是否对应于一个短语,其中第一文本是对应于“我们”的韩语文本,所述第二文本是对应于“所有人”的韩语文本,然后将识别结果和第二翻译文本“我们所有人”输入到第二神经网络模型2中。
然后,如果第一文本和第二文本不对应于一个短语,则第二神经网络模型2可输出对应第二翻译文本的第二意译文本,使得句子的自由度高。例如,如果第一文本和第二文本不对应于一个短语,则第二神经网络模型2可使与第二翻译文本对应的第二意译文本不包括句子结尾、或者不使用句号(。)或逗号(,)来结束文本,从而提高第二意译文本的自由度。也就是说,如果第一文本和第二文本不对应于一个短语,则第二神经网络模型2可以以非完整句子的形式输出第二意译文本。
作为另一示例,参考图8中的步骤3,处理器130可识别是否与“我们”的韩语文本对应的第一文本、与“所有人”的韩语文本对应的第二文本、以及与“这段时间很困难,但是”的韩语文本对应的第三文本是否对应于一个短语,然后将识别结果和第三翻译文本“这段时间对于每个人都很困难,但是”输入第二神经网络模型2中。
然后,如果第一文本至第三文本对应于一个短语,则第二神经网络模型2可输出与第三翻译文本对应的第三意译文本,使得句子的自由度低。例如,如果第一文本至第三文本对应于一个短语,则第二神经网络模型2可以以句子结尾、或句号或逗号来结束与第三翻译文本对应的第三意译文本(或者使文本包括句子结尾、或句号、或逗号),从而降低第三意译文本的自由度。也就是说,如果第一文本至第三文本对应于一个短语,则第二神经网络模型2可以以句子的形式或者以短语的形式输出第三意译文本。
将参考图9解释第一神经网络模型1、第二神经网络模型2和第三神经网络模型3中的每个的输出。
图9是示出根据本公开实施方式的第三神经网络模型的过程的流程图。
图9是详细示出基于图8的表中的步骤4的第三神经网络模型3输出的流程图。图9对应于图8中的步骤4,并且假设接收到构成句子的多个词中的第四个词。
首先,可假设用户以第一语言讲出“互相帮助”的情况。在这种情况下,当在操作S41通过麦克风接收到用户语音(即,对应于“互相帮助”)时,在操作S42,处理器130可执行语音识别并获取第四文本“互相帮助”。
然后,在操作S43中,处理器130可将对应于“我们”的第一文本、对应于“所有人”的第二文本、对应于“这段时间很困难,但是”的第三文本和对应于“互相帮助”的第四文本输入到第一神经网络模型1中,并且获取第四翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助”。操作S41至S43与图6所示的相同。
根据本公开实施方式的处理器130可将在步骤1至步骤4中的每个中获取的第一文本至第四文本,即“这段时间对于每个人都很困难,但是让我们互相帮助”输入到第三神经网络模型3中,并且在操作S48中,第三神经网络模型3可输出关于第一文本至第四文本是否对应于一个短语的信息。
然后,在操作S44中,处理器130可将第四翻译文本“这段时间对于每个人都很困难,但是让我们互相帮助”和由第三神经网络模型3输出的关于第一文本至第四文本是否对应于一个短语的信息输入到第二神经网络模型2中,并且获取第四意译文本“现在这段时间对于我们所有人都很困难,但是彼此互相帮助”。
特别地,在操作S44中,如果基于由第三神经网络模型3输出的信息识别出第一文本至第四文本对应于一个短语,则第二神经网络模型2可输出与第四翻译文本对应的第四意译文本,使得句子的自由度低。例如,第二神经网络模型2可以以句子结尾、或句号或逗号来结束与第四翻译文本对应的第四意译文本(或者使文本包括句子结尾、或句号、或逗号),从而降低第四意译文本的自由度。
作为另一示例,如果基于第三神经网络模型3输出的信息识别出第一文本至第四文本不对应于一个短语,则第二神经网络模型2可输出与第四翻译文本对应的第四意译文本,使得句子的自由度高。
在图9所示的流程图中,操作S45至S47基本上与图6所示相同,因此将省略对这一点的解释。
<第二神经网络模型的学习>
图10a和图10b是示出根据本公开实施方式的多个文本的图。
输出与输入文本对应的意译文本的第二神经网络模型2可基于多个文本来进行训练。
例如,处理器130可通过使用语言模型(LM)来获取多个学习文本。这里,语言模型可指被训练为获取与输入句子的相似性大于或等于阈值的另一句子的人工智能模型。语言模型可以是序列到序列模型,并且语言模型可包括用于处理输入数据的编码器,以及用于处理输出数据的解码器。
这里,序列表示相互关联的连续数据,并且诸如本公开中的第一句子、第二句子和第三句子的句子可被认为是序列的示例。
语言模型可包括用于处理输入数据的编码器,以及用于处理输出数据的解码器。这里,编码器和解码器可分别包括多个递归神经网络(RNN)单元。例如,多个RNN单元可包括长的短期存储器(LSTM)或门控循环单元(GRU)。
根据本公开实施方式的语言模型接收基于第一语言的单语料库的采样句子和输入句子。参考图10a,采样句子文本或第一句子文本S1可以是“今天,雨真的下得很大”。
第一句子文本S1可通过令牌被划分为词单元。例如,第一句子文本S1可被分成“今天”、“雨”、“真的”、“很大”和“下”。然后,可通过词嵌入将每个被划分的词转换为向量。然后,被转换成向量的每个被划分的词成为用于在语言模型中包括的每个RNN单元的每个时间步长的输入。然后,通过词嵌入将每个被划分的词转换为向量,并输入到每个RNN单元中。
同时,语言模型可识别包括如下词的多个词组群,这些词类似于包括在第一句子文本S1中的相应词。也就是说,多个词组群中的每个词组群可表示句子相似度值大于或等于第一阈值的词的集合。
例如,语言模型可识别包括“现在”和“昨天”的第二组,这些词是类似于“今天”的词。作为另一示例,语言模型可识别,包括“季风”、“大雨”、“暴雨”、“雪”、“毛毛雨”等的第四组,这些词是类似于“雨”的词。
然后,语言模型可基于在多个相应词组群中选择出的词,获取与第一句子文本S1对应的第一候选句子、第二候选句子、…、第n个候选句子等。例如,语言模型可获取与第一句子文本S1“今天,雨真的下得很大”对应的第一候选句子“今天,正在下大雨”和第二候选句子“现在,正在下大雨”。
具体地,语言模型可通过基于将第一句子文本S1中包括的词中的任何一个词固定候选句子的前部、并且使用从对应于相应剩余词的词组群中选择出的词,完成候选句子。
例如,参考图10b,语言模型可通过将第一句子文本S1中包括的词中的“今天”定位在最前面、并且使用从“雨”、“真的”、“河大”和“下”中的每个的词组群中选择出的词,获取第一候选句子、…、第n个候选句子。例如,语言模型可获取第一候选句子“现在,雨真的下得很大、第二候选句子“今天,正在下大雨”、第三候选句子“今天,将下很多毛毛雨”等。
然后,语言模型可获取第一句子文本S1与多个候选句子之间的混淆度(PPL)值和句子相似性(Sim)值。
参考图10b,语言模型可获取混淆度值小于阈值的第二句子文本,并且该第二句子文本的句子相似度值大于或等于多个候选句子中的第一阈值。由于混淆度值较低,这表示可以以较高或然率来对文本句子进行预测。因此,包括低混淆度值的文本句子的语言模型可表示良好的语言模型。
然后,第二神经网络模型可被训练为通过使用第一句子文本S1和第二句子文本来输出与输入文本对应的意译文本。
图11a和11b是示出根据本公开另一实施方式的多个文本的图。
根据本公开实施方式的处理器130可通过使用第一神经网络模型1(例如,神经机器翻译(NMT)模型)来获取多个学习文本。
例如,神经机器翻译模型可以是基于平行语料库训练的模型。这里,平行语料库可以是平行构成的语料库,使得不同语言的句子彼此对应。神经机器翻译模型可基于包括在平行语料库中的用于将第一语言翻译成第二语言的多个句子来进行训练。
参考图11a,根据本公开实施方式的处理器130可基于平行语料库获取第一语言(例如,英语)的句子文本以及与第一语言的句子文本对应的第二语言(例如,韩语)的第一翻译句子文本。例如,如果第一语言的句子文本是“那将不会发生”,则处理器130可基于平行语料库获取第二语言的第一翻译文本P1“那将不会发生”。
然后,处理器130可将第一翻译句子文本输入到第一神经网络模型1(神经机器翻译模型)中,并且获取第一语言的第二句子文本。
例如,如果第一句子文本是“那将不会发生”,则由第一神经网络模型输出的第二句子文本可以是“将不会发生这种情况”。
根据本公开实施方式的第一神经网络模型1可输出第二句子文本,使得第一句子中包括的多个词中的位于第一位置的词和第二句子中包括的多个词中的第一个词是不同的。
例如,参考图11a,如果第一句子文本S1是英语的“那将不会发生”,则第一神经网络模型可输出以不同词开头的韩语的第二句子文本P1“事情将不会那样发生”(即,第二句子文本不是如在第一句子文本S1中以对应于“那是”的韩语文本开头),并且第二句子文本对应于第一翻译句子文本S1的韩语文本“那将不会发生”。
然后,处理器130可使用第一句子文本S1和第二句子文本P1作为第二神经网络模型2的学习文本。这里,第一句子文本和第二句子文本中的每个中包括的多个词中的第一个词可以是不同的。
图11b是示出根据本公开的又一实施方式的获取多个文本的方法的图。
参考图11b,处理器130可将第一句子文本S1输入到第四神经网络模型1’中,并且获取对应于第一句子文本S1的第一翻译文本t1’。这里,第四神经网络模型可以是神经机器翻译模型,其被训练为如果输入了第一语言的文本,则输出第二语言的翻译文本(例如,将韩语翻译成英语)。
然后,处理器130可将第一翻译文本t1’输入到第一神经网络模型1中,并且获取对应于第一翻译文本t1’的第二句子文本P1。这里,第一神经网络模型1可以是神经机器翻译模型,其被训练为如果输入了第二语言的文本,则输出第一语言的翻译文本(例如,将英语翻译成韩语)。
这里,通过第四神经网络模型1’和第一神经网络模型1重译的第一句子文本S1(例如,从第一语言翻译成第二语言,然后从第二语言翻译成第一语言的句子文本)与第二句子文本P1之间的句子相似度值可大于或等于第一阈值。
例如,可假设处理器130获得“韩语”的“昨天,没事发生”作为第一句子文本。处理器130可将第一句子文本输入到第四神经网络模型1’中,第四神经网络模型1’被训练为将第一句子文本从“韩语”翻译成“英语”。然后,处理器130可从第四神经网络模型1’获取“昨天没事发生”作为翻译文本。
然后,处理器130可将翻译文本输入到第一神经网络模型1中,第一神经网络模型1被训练为从“英语”翻译成“韩语”。
根据本公开实施方式的处理器130可从第二神经网络模型获取重译句子,即,第二句子文本。根据本公开的实施方式,如果构成重译句子的多个词中的第一个词与包括在第一句子文本中的第一个词相同,则处理器130可从第一神经网络模型1获取新的重译句子。例如,处理器130可将“昨天没事发生”输入到第二神经机器翻译模型中,并且获取韩语的“昨天,没事发生”作为重译句子。在这种情况下,由于重译句子的第一个词“昨天”与第一句子文本的第一个词“昨天”相同,因此处理器130可通过第一神经网络模型1获取新的重译句子。例如,第一神经网络模型1可输出在语义上类似于第一句子文本但其第一个词不同的重译句子。例如,第一神经网络模型1可输出韩语的“昨天没事发生”。
然后,处理器130可通过使用第一句子文本和重译句子(即,第二句子文本)作为学习文本来训练第二神经网络模型。
由于第二神经网络模型是通过使用作为一对的两个句子来训练的,这两个句子的第一个词(词,其在词序上位于最前面)是不同的但这两个句子在语义上相似,因此第二神经网络模型可被训练为输出与翻译文本在语义上相似的意译文本,并且其中特定文本(例如,先前通过扬声器110输出的意译文本)在词序上位于最前面。人工智能模型被训练的特征表示通过学习算法使用多个训练数据来训练基本人工智能模型(例如,包括任何随机参数的人工智能模型),从而形成执行期望的特性(或目的)的预定操作规则或人工智能模型集。这种学习可通过单独的服务器和/或系统来执行,但是本公开不限于此,并且学习可在电子装置100执行。作为学习算法的示例,有监督学习、无监督学习、半监督学习、转移学习或强化学习,但学习算法不限于前述实例。
这里,每个人工智能模型可实施为例如,卷积神经网络(CNN)、递归神经网络(RNN)、受限玻尔兹曼机器(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、或深度Q网络等,但不限于此。
返回图1,根据本公开实施方式的用于执行人工智能模型的处理器130可实施为诸如CPU、AP、数字信号处理器(DSP)等的通用处理器,诸如GPU、视觉处理单元(VPU)等的图形专用处理器,或者通过诸如NPU的人工智能专用处理器和软件的组合来实施。处理器130可执行控制以根据存储在存储器120中的预定操作规则或人工智能模型来处理输入数据。可选地,在处理器130是专用处理器(或人工智能专用处理器)的情况下,处理器130可被设计为指定用于处理特定人工智能模型的硬件结构。例如,指定用于处理特定人工智能模型的硬件可被设计为诸如ASIC、FPGA等的硬件芯片。在处理器130被实施为专用处理器的情况下,处理器130可实施为包括用于实施本公开实施方式的存储器,或者被实施为包括用于使用外部存储器的存储器处理功能。
根据本公开的另一实施方式,存储器120可存储关于包括多个层的人工智能模型的信息。这里,存储关于人工智能模型的信息的特征可表示存储与人工智能模型的操作相关的各种信息,例如,关于包括在人工智能模型中的多个层的信息,关于在多个相应层中使用的参数的信息(例如,滤波器系数、偏差等)等。
根据本公开实施方式的通信接口接收各种数据的输入。例如,通信接口110可通过诸如基于AP的Wi-Fi(Wi-Fi、无线LAN网络)、蓝牙、Zigbee、有线/无线局域网(LAN)、广域网(WAN)、以太网、IEEE 1394、高清多媒体接口(HDMI)、通用串行总线(USB)、移动高清链路(MHL)、音频工程学会/欧洲广播联盟(AES/EBU)、光纤、同轴等的通信方法,从外部装置(例如,显示装置200,多个用户终端10、20、30)、外部存储介质(例如,USB存储器)、外部服务器(例如,网络硬盘)等接收各种数据的输入。
输入器可接收用户输入。例如,输入器可包括麦克风并接收用户的语音。作为另一示例,输入器可包括键盘、鼠标、键盘、触控板等,但是本公开不限于此。
显示器可显示各种屏幕。显示器可实施为包括自发光二极管的显示器、或包括非自发光二极管和背光的显示器。例如,显示器可实施为各种形式的显示器,诸如液晶显示器(LCD)、有机发光二极管(OLED)显示器、发光二极管(LED)、微型LED、小型LED、等离子体显示面板(PDP)、量子点(QD)显示器、量子点发光二极管(QLED)等。在显示器150中,还可包括以诸如a-si TFT、低温多晶硅(LTPS)TFT、有机TFT(OTFT)等的形式实现的驱动电路和背光单元等。同时,显示器150可实施为与触摸传感器相结合的触摸屏、柔性显示器、可滚动显示器、3D显示器、多个显示模块物理连接的显示器等。
图12是示出根据本公开实施方式的电子装置的控制方法的流程图。
在根据本公开实施方式的电子装置的控制方法中,在操作1210中,将第一语言的第一文本输入到第一神经网络模型中,并且获取与第一文本对应的第二语言的第一翻译文本。
然后,在操作S1220中,将第一翻译文本输入到第二神经网络模型中,并且获取与第一翻译文本对应的第一意译文本。
然后,在操作S1230和S1240中,基于第一文本和第一意译文本来识别第一意译文本是否可被输出。
然后,在操作S1250,根据识别结果输出第一意译文本。
然后,如果在第一文本之后接收到第二文本,则在操作S1260中将第一文本和第二文本输入到第一神经网络模型中,并且获取与第一文本和第二文本对应的第二翻译文本。然后,将识别结果和第二翻译文本输入到第二神经网络模型中,并且在操作S1270中获取与第二翻译文本对应的第二意译文本。这里,如果根据识别结果而识别出已经输出了第一意译文本,则第二神经网络模型将包括第一意译文本并且与第二翻译文本对应的第二意译文本输出为使得第一意译文本在词序上位于前面;以及如果识别出先前没有输出第一意译文本,则第二神经网络模型输出第二意译文本。第二神经网络模型输出与第二翻译文本对应的第二意译文本。
这里,在识别第一意译文本是否可被输出的步骤中,操作S1230可包括以下步骤:获取第一翻译文本与第一意译文本之间的句子相似度值,以及基于所获取的句子相似度值来识别第一意译文本是否可被输出;以及输出第一意译文本的步骤可包括以下步骤:如果句子相似度值大于或等于第一阈值(在操作S1230中为“是”),则输出第一意译文本。
另外,在识别第一意译文本是否可被输出的步骤中,操作S1240可包括以下步骤:获取第一意译文本的句子适合度值,以及基于所获取的句子适合度值来识别第一意译文本是否可被输出;以及输出第一意译文本的步骤可包括以下步骤:如果句子适合度值大于或等于第二阈值(在操作S1240中为“是”),则输出第一意译文本。
根据本公开实施方式的控制方法还可包括以下步骤:基于第二文本和第二意译文本来识别第二翻译文本是否可被输出;以及基于识别出已经输出了第一意译文本、并且根据识别结果可输出第二意译文本,输出第二意译文本中的除了第一意译文本之外的剩余部分;以及基于识别出未输出第一意译文本并且第二意译文本可被输出,输出第二意译文本。
这里,识别第二意译文本是否可被输出的步骤可包括以下步骤:获取第二翻译文本与第二意译文本之间的含义相似度值,获取第二意译文本的句子适合度值,以及基于含义相似度值和句子适合度值来识别第二意译文本是否可被输出;以及输出第二意译文本的步骤可包括以下步骤:基于含义相似度值大于等于第一阈值并且句子适合度值大于等于第二阈值,输出第二意译文本。
根据本公开实施方式的控制方法还可包括:将第一文本和第二文本输入到第三神经网络模型中,并且获取关于第一文本和第二文本是否对应于一个短语的信息;以及获取与第二翻译文本对应的第二意译文本的操作S1270可包括:将第二翻译文本和关于第一文本和第二文本是否对应于一个短语的信息输入到第二神经网络模型中,并且获取与第二翻译文本对应的第二意译文本。
这里,第二神经网络模型可基于输入信息识别出第一文本和第二文本对应于一个短语,以句子或短语的形式输出与第二翻译文本对应的第二意译文本;并且基于识别出第一文本和第二文本不对应于一个短语,以非完整句子的形式输出与第二翻译文本对应的第二意译文本。
另外,第二神经网络模型可基于多个文本来进行训练,并且多个文本可包括:基于从多个相应词组群中选择的至少一个词获得的第一句子文本,以及与第一句子文本的句子相似度值大于或等于第一阈值的第二句子文本,以及多个相应词组群可以是句子相似度值大于或等于第一阈值的词的集合。
另外,第二神经网络模型可基于多个文本来进行训练,并且多个文本可包括:基于两种不同语言之间的平行语料库获取的、与第一语言的第一句子文本对应的第二语言的第一翻译句子文本,以及通过将第一句子文本输入到第一神经网络模型中而获取的第二语言的第二翻译句子文本;以及第一翻译句子文本与第二翻译句子文本之间的句子相似度值可大于或等于第一阈值。
这里,构成第一翻译句子文本的多个词中的最前面的词和构成第二翻译句子文本的多个词中的最前面的词可以是彼此不同的词。
本公开各实施方式不仅可应用于根据本公开的电子装置,而且还可应用于诸如显示装置的可执行图像处理的所有电子装置。
本公开的上述各种实施方式可以以记录介质来实施,所述记录介质可由计算机或类似于计算机的装置通过使用软件、硬件或其组合来读取。在一些情况下,本说明书中所描述的实施方式可实施为处理器本身。根据通过软件的实施方式,本说明书中描述的诸如过程和功能的实施方式可实施为单独的软件模块。每个软件模块可执行本说明书中描述的一个或多个功能和操作。
根据本公开上述各种实施方式的用于执行声音输出装置100的处理操作的计算机指令可存储在非暂时性计算机可读介质中。当指令由特定机器的处理器执行时,存储在这中非暂时性计算机可读介质中的计算机指令使得由特定机器执行在根据上述各种实施方式的声音输出装置100进行处理操作。
非暂时性计算机可读介质是指半永久地存储数据并且可由机器读取的介质,而不是诸如寄存器、高速缓存和存储器的用于短时间存储数据的介质。作为非暂时性计算机可读介质的具体示例,可以是CD、DVD、硬盘、蓝光光盘、USB、存储卡、ROM等。
根据实施方式,本文所描述的部件、元件、模块或单元中的至少一个可实施为执行上述相应功能的各种数量的硬件、软件和/或固件结构。
例如,这些部件、元件或单元中的至少一个可使用诸如存储器、处理器、逻辑电路、查找表等的直接电路结构,直接电路结构可通过一个或多个微处理器或其它控制设备的控制来执行相应功能。
另外,这些部件、元件或单元中的至少一个可由模块、程序或代码的一部分来实施,所述模块、程序或代码的一部分包含用于执行指定逻辑功能的一个或多个可执行指令,并且由一个或多个微处理器或其它控制设备来执行。
另外,这些部件、元件或单元中的至少一个还可包括诸如执行相应功能的中央处理单元(CPU)的处理器、微处理器等,或者由处理器、微处理器来实施。这些部件、元件或单元中的两个或更多个可被组合成单个部件、元件或单元,其执行所组合的两个或更多个部件、元件或单元的所有操作或功能。
另外,这些部件、元件或单元中的至少一个的至少部分功能可由这些部件、元件或单元中的另一个来执行。另外,尽管在框图中没有示出总线,但是可通过总线执行部件、元件或单元之间的通信。
上述实施方式的功能方面可以以在一个或多个处理器上执行的算法来实施。另外,由块表示的部件、元件或单元或处理操作可采用用于电子配置、信号处理和/或控制、数据处理等的任何数量的相关技术。
尽管已经示出和描述了本公开的实施方式,但是本公开不限于上述具体实施方式,显而易见的是,在不脱离如所附权利要求书所要求的本公开主旨的情况下,本公开所属技术领域的普通技术人员可进行各种修改。另外,这种修改不应独立于本公开的技术思想或前景来解释。

Claims (15)

1.一种电子装置,包括:
扬声器;
存储至少一个指令的存储器;以及
与所述存储器电连接的处理器,
其中,所述处理器被配置为:
通过执行所述指令以:
将第一文本输入到第一神经网络模型中,并且获取与所述第一文本对应的第一翻译文本,
将所述第一翻译文本输入到第二神经网络模型中,并且获取与所述第一翻译文本对应的第一意译文本,
基于所述第一文本和所述第一意译文本,识别所述第一意译文本是否能被输出,
根据所识别的结果,控制所述扬声器输出所述第一意译文本,
基于在所述第一文本之后接收到的第二文本,将所述第一文本和所述第二文本输入到所述第一神经网络模型中,并且获取与所述第一文本和所述第二文本对应的第二翻译文本,以及
将所识别的结果和所述第二翻译文本输入到所述第二神经网络模型中,并且获取与所述第二翻译文本对应的第二意译文本,以及
所述第二神经网络模型被配置为:
基于根据所识别的结果而识别出已经输出了所述第一意译文本,将包括所述第一意译文本并且与所述第二翻译文本对应的所述第二意译文本输出为使得所述第一意译文本在词序上位于前面,以及
基于识别出先前未输出所述第一意译文本,输出与所述第二翻译文本对应的所述第二意译文本。
2.根据权利要求1所述的电子装置,
其中,所述处理器被配置为:
获取所述第一翻译文本与所述第一意译文本之间的句子相似度值,
基于所获取的句子相似度值,识别所述第一意译文本是否能被输出,以及
基于所述句子相似度值大于或等于第一阈值,控制所述扬声器输出所述第一意译文本。
3.根据权利要求1所述的电子装置,
其中,所述处理器被配置为:
获取所述第一意译文本的句子适合度值,
基于所获取的句子适合度值,识别所述第一意译文本是否能被输出,以及
基于所述句子适合度值大于或等于第二阈值,控制所述扬声器输出所述第一意译文本。
4.根据权利要求1所述的电子装置,
其中,所述处理器被配置为:
基于所述第二文本和所述第二意译文本,识别所述第二意译文本是否能被输出,
基于识别出已经输出了所述第一意译文本、并且根据所识别的结果所述第二意译文本能被输出,控制所述扬声器输出所述第二意译文本中的除了所述第一意译文本之外的剩余部分,以及
基于识别出未输出所述第一意译文本、并且所述第二意译文本能被输出,控制所述扬声器输出所述第二意译文本。
5.根据权利要求4所述的电子装置,
其中,所述处理器被配置为:
获取所述第二翻译文本与所述第二意译文本之间的句子相似度值,
获取所述第二意译文本的句子适合度值,
基于所述句子相似度值和所述句子适合度值,识别所述第二意译文本是否能被输出,以及
基于所述句子相似度值大于等于所述第一阈值并且所述句子适合度值大于等于所述第二阈值,控制所述扬声器输出所述第二意译文本。
6.根据权利要求1所述的电子装置,
其中,所述处理器被配置为:
将所述第一文本和所述第二文本输入到第三神经网络模型中,并且获取关于所述第一文本和所述第二文本是否对应于一个短语的信息,以及
将所述第二翻译文本和关于所述第一文本和所述第二文本是否对应于一个短语的信息输入到所述第二神经网络模型中,并且获取与所述第二翻译文本对应的所述第二意译文本。
7.根据权利要求6所述的电子装置,
其中,所述第二神经网络模型被配置为:
基于根据所输入的信息识别出所述第一文本和所述第二文本对应于一个短语,以句子或短语的形式输出与所述第二翻译文本对应的所述第二意译文本,以及
基于识别出所述第一文本和所述第二文本不对应于一个短语,以非完整句子的形式输出与所述第二翻译文本对应的所述第二意译文本。
8.根据权利要求1所述的电子装置,
其中,所述第二神经网络模型基于多个文本来进行训练,
所述多个文本包括:
基于从多个相应词组群中选择的至少一个词获取的第一句子文本,以及与所述第一句子文本的句子相似度值大于或等于所述第一阈值的第二句子文本,以及
所述多个相应词组群是句子相似度值大于或等于所述第一阈值的词的集合。
9.根据权利要求1所述的电子装置,
其中,所述第二神经网络模型基于多个文本来进行训练,
所述多个文本包括:
基于两种不同语言之间的平行语料库获得的、与第一语言的第一句子文本对应的第二语言的第一翻译句子文本,以及通过将所述第一句子文本输入到所述第一神经网络模型中而获得的所述第二语言的第二翻译句子文本;以及
所述第一翻译句子文本与所述第二翻译句子文本之间的句子相似度值大于或等于所述第一阈值。
10.根据权利要求9所述的电子装置,
其中,构成所述第一翻译句子文本的多个词中的最前面的词和构成所述第二翻译句子文本的多个词中的最前面的词是彼此不同的词。
11.一种电子装置的控制方法,所述方法包括:
将第一文本输入到第一神经网络模型中,并且获取与所述第一文本对应的第一翻译文本;
将所述第一翻译文本输入到第二神经网络模型中,并且获取与所述第一翻译文本对应的第一意译文本;
基于所述第一文本和所述第一意译文本,识别所述第一意译文本是否能被输出;
根据所识别的结果,输出所述第一意译文本;
基于在所述第一文本之后接收到的第二文本,将所述第一文本和所述第二文本输入到所述第一神经网络模型中,并且获取与所述第一文本和所述第二文本对应的第二翻译文本;以及
将所识别的结果和所述第二翻译文本输入到所述第二神经网络模型中,并且获取与所述第二翻译文本对应的第二意译文本,
其中,所述第二神经网络模型被配置为:
基于根据所识别的结果而识别出已经输出了所述第一意译文本,将包括所述第一意译文本并且与所述第二翻译文本对应的所述第二意译文本输出为使得所述第一意译文本在词序上位于前面;以及
基于识别出先前未输出所述第一意译文本,输出与所述第二翻译文本对应的所述第二意译文本。
12.根据权利要求11所述的控制方法,
其中,识别所述第一意译文本是否能被输出包括:
获取所述第一翻译文本与所述第一意译文本之间的句子相似度值;以及
基于所获取的句子相似度值,识别所述第一意译文本是否能被输出;以及
输出所述第一意译文本包括:
基于所述句子相似度值大于或等于第一阈值,输出所述第一意译文本。
13.根据权利要求11所述的控制方法,
其中,识别所述第一意译文本是否能被输出包括:
获取所述第一意译文本的句子适合度值;以及
基于所获取的句子适合度值,识别所述第一意译文本是否能被输出,以及
输出所述第一意译文本包括:
基于所述句子适合度值大于或等于第二阈值,输出所述第一意译文本。
14.根据权利要求11所述的控制方法,还包括:
基于所述第二文本和所述第二意译文本,识别所述第二意译文本是否能被输出;
基于识别出已经输出了所述第一意译文本、并且根据所识别的结果所述第二意译文本能被输出,输出所述第二意译文本中的除了所述第一意译文本之外的剩余部分;以及
基于识别出未输出所述第一意译文本、并且所述第二意译文本能被输出,输出所述第二意译文本。
15.根据权利要求14所述的控制方法,
其中,识别所述第二意译文本是否能被输出包括:
获取所述第二翻译文本与所述第二意译文本之间的句子相似度值;
获取所述第二意译文本的句子适合度值;
基于所述句子相似度值和所述句子适合度值,识别所述第二意译文本是否能被输出;以及
输出所述第二意译文本包括:
基于所述句子相似度值大于等于所述第一阈值并且所述句子适合度值大于等于所述第二阈值,控制所述扬声器输出所述第二意译文本。
CN202180069620.9A 2021-02-04 2021-09-09 电子装置及其控制方法 Pending CN116368490A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020210016257A KR20220112563A (ko) 2021-02-04 2021-02-04 전자 장치 및 그 제어 방법
KR10-2021-0016257 2021-02-04
PCT/KR2021/012265 WO2022169054A1 (ko) 2021-02-04 2021-09-09 전자 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
CN116368490A true CN116368490A (zh) 2023-06-30

Family

ID=82611452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180069620.9A Pending CN116368490A (zh) 2021-02-04 2021-09-09 电子装置及其控制方法

Country Status (3)

Country Link
US (1) US20220245364A1 (zh)
EP (1) EP4206972A1 (zh)
CN (1) CN116368490A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230125543A1 (en) * 2021-10-26 2023-04-27 International Business Machines Corporation Generating audio files based on user generated scripts and voice components

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
CN106484682B (zh) * 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
RU2692049C1 (ru) * 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке
US11763098B2 (en) * 2019-08-07 2023-09-19 7299362 Canada Inc. System and method for language translation
US11562152B2 (en) * 2020-09-23 2023-01-24 Google Llc Re-translation for simultaneous, spoken-language machine translation

Also Published As

Publication number Publication date
US20220245364A1 (en) 2022-08-04
EP4206972A1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
US20170053652A1 (en) Speech recognition apparatus and method
KR102346026B1 (ko) 전자 장치 및 이의 제어 방법
US11322136B2 (en) System and method for multi-spoken language detection
EP4050497A1 (en) Electronic device and method for controlling the electronic device thereof
US11856277B2 (en) Method and apparatus for processing video, electronic device, medium and product
US11880754B2 (en) Electronic apparatus and control method thereof
US11501753B2 (en) System and method for automating natural language understanding (NLU) in skill development
CN112806022A (zh) 电子装置和用于控制该电子装置的方法
US20220237915A1 (en) Electronic apparatus and controlling method thereof
US11455471B2 (en) System and method for explaining and compressing deep learning natural language understanding (NLU) models
KR102469712B1 (ko) 전자 장치 및 이의 자연어 생성 방법
US20220245364A1 (en) Electronic device and control method thereof
US20210343277A1 (en) System and method for out-of-vocabulary phrase support in automatic speech recognition
KR20200095947A (ko) 전자 장치 및 이의 제어 방법
US11417323B2 (en) Electronic apparatus and control method thereof
US11238865B2 (en) Function performance based on input intonation
US20200057758A1 (en) Server and control method thereof
US11817097B2 (en) Electronic apparatus and assistant service providing method thereof
US20230130287A1 (en) Light-weight machine learning models for lip sync animation on mobile devices or other devices
US20230040181A1 (en) System and method for improving named entity recognition
US20220222491A1 (en) System and method for lightweight semantic masking
KR20220112563A (ko) 전자 장치 및 그 제어 방법
US20230315771A1 (en) Electronic apparatus for performing search and control method thereof
US20230368786A1 (en) System and method for accent-agnostic frame-level wake word detection
US11836299B1 (en) Virtual sign language system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination