CN112651247A - 对话系统、对话处理方法、翻译装置和翻译方法 - Google Patents

对话系统、对话处理方法、翻译装置和翻译方法 Download PDF

Info

Publication number
CN112651247A
CN112651247A CN202010377509.3A CN202010377509A CN112651247A CN 112651247 A CN112651247 A CN 112651247A CN 202010377509 A CN202010377509 A CN 202010377509A CN 112651247 A CN112651247 A CN 112651247A
Authority
CN
China
Prior art keywords
output
language
sentences
meaning representation
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010377509.3A
Other languages
English (en)
Inventor
朴永敏
金宣我
李廷馣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Kia Corp
Original Assignee
Hyundai Motor Co
Kia Motors Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Kia Motors Corp filed Critical Hyundai Motor Co
Publication of CN112651247A publication Critical patent/CN112651247A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及对话系统、对话处理方法、翻译装置和翻译方法。对话系统包括:语音识别器、对话管理器以及结果处理器,所述语音识别器配置为通过将用户的语音转换为文本来生成输入语句;所述对话管理器配置为生成输入语句的含义表示;所述结果处理器配置为生成与含义表示相对应的多个输出语句。对话管理器为多个输出语句的每一个生成含义表示。结果处理器基于输入语句的含义表示和多个输出语句的每一个的含义表示来生成系统响应。

Description

对话系统、对话处理方法、翻译装置和翻译方法
技术领域
本发明的实施方案涉及对话系统、对话处理方法、翻译装置和翻译方法,所述对话系统、对话处理方法、翻译装置和翻译方法能够通过将输入的语句翻译成能够与用户交流的另一种语言的电子装置来输出输入的语句。
背景技术
对话系统是可以识别用户的语音并提供与所识别的语音相对应的服务的系统。
对话系统可以输出系统响应以提供与所识别的语音相对应的服务。系统响应可以包括对用户问题的回答,并且可以包括用于确认用户语音的问题,或者可以包括要提供的服务的指南。
从对话系统输出的系统响应使得用户感觉用户好像在进行真实的对话,并且自然地说话,就好像用户在与某人进行对话。因此,在评估对话系统的性能时,一个重要的因素可以是从对话系统输出的系统响应与用户语音的匹配。
发明内容
公开的实施方案提供了一种对话系统和对话处理方法,所述对话系统和对话处理方法可以通过使用用于分析用户语音的含义的语义分析模型生成系统响应来提高系统响应的准确性和用户便利性。
此外,公开的实施方案提供了一种翻译装置和翻译方法,所述翻译装置和翻译方法可以:在从输入语言翻译成另一种语言的多个输出语句中选择最终输出语句时,通过使用用于分析用户话语的含义的语义分析模型来提高翻译的准确性。
根据本发明的实施方案,一种对话系统包括:语音识别器、对话管理器以及结果处理器,所述语音识别器配置为通过将用户的语音转换为文本来生成输入语句;所述对话管理器配置为生成输入语句的含义表示;所述结果处理器配置为生成与含义表示相对应的多个输出语句。对话管理器可以为多个输出语句的每一个生成含义表示。结果处理器可以基于输入语句的含义表示和多个输出语句的每一个的含义表示来生成系统响应。
进一步地,结果处理器可以使用N-best算法确定多个输出语句的排序。
进一步地,结果处理器可以基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度,再次确定多个输出语句的排序。
进一步地,结果处理器可以使用N-best算法为多个输出语句的每一个分配置信度得分。
进一步地,结果处理器可以基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度,为多个输出语句的每一个分配相似度得分。
进一步地,结果处理器可以基于将置信度得分和相似度得分相加的总得分来生成系统响应。
根据本发明的实施方案,一种翻译装置包括:翻译器、第一对话管理器、第二对话管理器以及确定器,所述翻译器配置为将第一语言的输入语句翻译成第二语言以生成多个输出语句;所述第一对话管理器配置为生成第一语言的输入语句的含义表示;所述第二对话管理器配置为生成第二语言的多个输出语句的每一个的含义表示;所述确定器配置为基于第一语言的输入语句的含义表示和第二语言的多个输出语句的每一个的含义表示来确定第二语言的多个输出语句中的最终输出语句。
进一步地,翻译器可以使用N-best算法确定第二语言的多个输出语句的排序。
进一步地,确定器可以基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,再次确定多个输出语句的排序。
进一步地,翻译器可以使用N-best算法为第二语言的多个输出语句的每一个分配置信度得分。
进一步地,确定器可以基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,为第二语言的多个输出语句的每一个分配相似度得分。
进一步地,确定器可以基于将置信度得分和相似度得分相加的总得分来确定最终输出语句。
根据本发明的实施方案,一种对话处理方法包括:通过将用户的语音转换为文本来生成输入语句;生成输入语句的含义表示;生成与输入语句的含义表示相对应的多个输出语句;生成多个输出语句的每一个含义表示;基于输入语句的含义表示和多个输出语句的每一个的含义表示来生成系统响应。
进一步地,生成与含义表示相对应的多个输出语句可以包括:使用N-best算法确定多个输出语句的排序。
进一步地,生成系统响应可以包括:基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度,再次确定多个输出语句的排序。
进一步地,生成与含义表示相对应的多个输出语句可以包括:使用N-best算法为多个输出语句的每一个分配置信度得分。
进一步地,生成系统响应可以包括:基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度,为多个输出语句的每一个分配相似度得分。
进一步地,生成系统响应可以包括:基于将置信度得分和相似度得分相加的总得分来生成系统响应。
根据本发明的实施方案,一种翻译方法包括:通过将第一语言的输入语句翻译成第二语言来生成多个输出语句;生成第一语言的输入语句的含义表示;生成第二语言的多个输出语句的每一个的含义表示;基于第一语言的输入语句的含义表示和第二语言的多个输出语句的每一个的含义表示来确定第二语言的多个输出语句中的最终输出语句。
进一步地,生成第二语言的多个输出语句可以包括:使用N-best算法确定第二语言的多个输出语句的排序。
进一步地,确定最终输出语句可以包括:基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,再次确定多个输出语句的排序。
进一步地,生成第二语言的多个输出语句可以包括:使用N-best算法为第二语言的多个输出语句的每一个分配置信度得分。
进一步地,确定最终输出语句可以包括:基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,为第二语言的多个输出语句的每一个分配相似度得分。
进一步地,确定最终输出语句可以进一步包括:基于将置信度得分和相似度得分相加的总得分来确定最终输出语句。
附图说明
通过随后结合附图所呈现的实施方案的具体描述,本发明的这些和/或其它方面将更加显然且更加容易领会,附图中:
图1是根据实施方案的对话系统的控制框图。
图2是示出根据实施方案的对话系统的结果处理器的示例的示意图。
图3至图6是示出当用户的话语输入到根据实施方案的对话系统时输出系统响应的详细过程的示意图。
图7是根据实施方案的翻译装置的控制框图。
图8至图10是示出当输入语句输入到根据实施方案的翻译装置时输出翻译语句的具体过程的示意图。
图11是根据实施方案的对话处理方法的流程图。
图12是根据实施方案的翻译方法的流程图。
附图标记说明
100:对话系统
110:语音识别器
120:对话管理器
130:结果处理器
200:翻译装置
210:翻译器
220:第一语义分析器
230:第二语义分析器
240:确定器。
具体实施方式
在此描述的实施方案和附图中示出的配置是本发明的示例。在提交本申请时,可以进行各种能够代替本说明书的实施方案和附图的修改。
此外,在本文中使用的术语只用于描述具体实施方案,而不意图用于限制本发明。除非上下文另有明确说明,否则单数形式包括复数形式。如本文所用,术语“包括”或“具有”意在表示存在说明书中描述的特征、数字、步骤、动作、组件、部件或其组合。术语“包括”或“具有”不排除预先存在或增加一个或更多个其他特征或数字、步骤、操作、组件、部件或其组合。
此外,诸如“~部件”、“~组”、“~块”、“~构件”、“~模块”的术语也可以指用于处理至少一个功能或操作的单元。例如,这些术语可以指由至少一种硬件处理的至少一种硬件,例如现场可编程门阵列(FPGA)/专用集成电路(ASIC)、存储在存储器中的至少一种软件、或处理器。
此外,在本文描述的组件之前使用的诸如“第一”和“第二”的序数也仅用于将组件彼此区分开。这些组件之间的连接顺序及其使用顺序没有不同的诸如优先级的语义。
这些步骤的附图标记用于识别步骤。这些附图标记不表示步骤之间的顺序。除非上下文清楚地指示特定的顺序,否则每个步骤可以以不同于所述顺序的顺序执行。
另一方面,所公开的实施方案可以以用于存储可由计算机执行的指令的记录介质的形式来实现。指令可以以程序代码的形式存储,并且当由处理器执行时,可以生成程序模块以执行所公开的实施方案的操作。记录介质可以实施为计算机可读记录介质。
计算机可读记录介质可以包括存储有可以由计算机读取的指令的各种记录介质。例如,可以是只读存储器(ROM)、随机存取存储器(RAM)、磁带、磁盘、闪存、光学数据存储设备等。
在下文中,下面参考附图详细描述根据一方面的对话系统、对话处理方法和电子装置的实施方案。
根据实施方案的对话系统是可以识别用户的语音并且提供与所识别的语音相对应的服务的系统。对话系统可以输出系统响应以提供与所识别的语音相对应的服务。系统响应可以包括对用户问题的回答,并且可以包括用于确认用户语音的问题,或者可以包括要提供的服务的指南。
图1是根据实施方案的对话系统的控制框图。
参考图1,根据实施方案的对话系统100包括:语音识别器110、对话管理器120以及结果处理器130,所述语音识别器110将用户的语音转换为文本并生成输入语句;所述对话管理器120为输入语句生成含义表示;所述结果处理器130生成对应于含义表示的多个输出语句。
根据一个实施方案,对话系统100可以包括至少一个用于存储程序和相关数据的存储器,以及至少一个用于执行存储的程序的处理器。
在该实施方案中,不基于物理位置或配置而是基于操作来对组件进行分类。语音识别器110、对话管理器120和结果处理器130的每一个可以使用单独的存储器和处理器,或者也可以部分或全部共享存储器和处理器。
根据一个实施方案,对话系统100可以实现为服务器。在这种情况下,可以在服务器中设置对话系统100的语音识别器110、对话管理器120和/或结果处理器130。然而,可以在将对话系统100与用户连接的用户终端中设置诸如对话系统100的语音识别器110、对话管理器120和/或结果处理器130的一些组件。
例如,当用户终端是车辆时,对话系统100的一些组件可以设置在车辆中。当用户终端是诸如智能电话、人工智能(AI)扬声器或个人计算机(PC)的移动设备时,对话系统100的一些组件可以设置在移动设备、AI扬声器或PC中。
或者,用户可以下载并使用用于在用户终端上执行对话系统100的组件的一些功能的程序。
麦克风和扬声器可以设置在诸如车辆、移动设备或PC的用户终端中。用户终端可以通过无线通信连接到对话系统100。尽管未在图1的控制框图中示出,对话系统100可以进一步包括可以通过无线通信与用户终端交换数据的无线通信模块。
通过麦克风输入的用户语音可以发送到对话系统100的无线通信模块。
语音识别器110可以通过对用户的语音应用语音识别算法或语音到文本(Speechto Text,STT)将语音转换为文本。例如,通过应用特征向量提取技术,例如倒频谱(Cepstrum)、线性预测系数(Linear Predictive Coefficient,LPC)、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)或滤波器组能量(Filter Bank Energy),语音识别器110提取与可以提取的用户语音相对应的语音信号的特征向量。
可以通过将提取的特征向量与训练后的参考模式进行比较来获得识别结果。为此,可以使用用于对语音的信号特性进行建模和比较的声学模型,以及用于对诸如与所识别的词汇相对应的单词或音节的语言学顺序关系进行建模的语言模型。
声学模型可以进一步分为用于将识别对象设置为特征向量模型并将其与语音数据的特征向量进行比较的直接比较方法,以及用于对识别对象的特征向量进行统计处理的统计方法。
直接比较方法是一种将待识别的单词、音素等的单元设置为特征向量模型并比较输入语音的相似度的方法。根据向量量化方法,将输入语音数据的特征向量与作为参考模型的码本进行映射,并作为代表值进行编码,从而比较代码值。
统计模型方法是一种将识别对象的单元构造为状态序列并使用状态列之间的关系的方法。状态列可以包括多个节点。使用状态列之间的关系的方法再次包括动态时间规整(dynamic time warping,DTW)、隐马尔可夫模型(hidden Markov models,HMM)和神经网络。
动态时间规整是一种在考虑语音的动态特性时补偿时间轴差异的技术,语音的长度会随时间变化,即使同一个人发出相同的发音也是如此。隐马尔可夫模型或简称HMM将语音假定为具有状态转移概率和每个状态中的节点(输出符号)的观察概率的马尔可夫过程。然后,HMM根据训练数据估算状态转移概率和节点的观察概率。在估算的模型中,作为识别技术,HMM计算输入语音将出现的概率。
另一方面,用于对诸如单词或音节的语言学顺序关系建模的语言模型可以将构成语言的单元之间的声学关系应用于语音识别中获得的单元,从而减少声学歧义并减少识别错误。语言模型是基于统计语言模型和有限状态自动机(finite state automata,FSA)的模型,并且统计语言模型使用单词的链概率,例如Unigram,Bigram和Trigram。
语音识别器110可以在识别与用户的语音相对应的语音信号并将其转换为文本时使用上述任何方法。例如,可以使用利用隐马尔可夫模型的声学模型,或者可以使用整合了声学模型和语言模型的模型。
语音识别器110将用户的语音转换为文本,并将其输入到对话管理器120中。在以下实施方案中,转换为文本的用户语音称为输入语句。
对话管理器120可以将自然语言理解应用于输入语句,以确定包括在用户语音中的用户意图。实体名称是例如人名、地名、组织名称、时间、日期、货币等的专有名词。实体名称识别是识别语句中的实体名称并确定所识别的实体名称的类型的任务。通过识别个体名称,我们可以从语句中提取重要的关键词以理解语句的含义。
对话管理器120可以从用户的语音中提取域。域可以识别用户所说的语言的主题。例如,可以预先确定各种域,例如文本、导航、日程表、天气、交通信息、车辆控制和家用电器控制。对话管理器120可以确定用户语音的域是哪个预定域。
对话管理器120可以分析用户语音的语音行为。语音行为分析用于分析用户语音的意图并掌握诸如用户是否提出问题、提出请求、做出响应或表达简单的情感的语音意图。
对话管理器120可以基于与用户的语音相对应的关于域、实体名称、对话动作等的信息来掌握用户的意图,并且提取与用户的意图相对应的动作。动作可以由对象和操作符定义。
例如,当所识别出的用户意图是“运行空调”时,相应的动作可以定义为“空调(对象)_开(操作符)”,当所识别出的用户意图是“发短信”时,相应的动作可以定义为“短信(对象)_发送(操作符)”。
此外,对话管理器120可以提取与执行动作有关的因素。与执行动作有关的因素可以是执行动作直接需要的有效因素,或者可以是用于提取这种有效因素的无效因素。
例如,如果语音识别器110生成的文本输出是“给吉东发短信”,则对话管理器120确定对应于用户语音的域是“短信”,动作是“短信发送”,并且语音行为对应于“请求”。
对象名称“吉东”对应于与执行该动作有关的{因素1:收件人}。但是,为了实际发送短信,需要{因素2:具体的消息内容}。
在这种情况下,对话系统100可以输出系统响应“请告诉我要发送的消息”以从用户获得具体的消息内容。
对话管理器120基于上述文本(输入语句)分析结果,在结果处理器130中生成用于生成与用户意图相对应的系统响应或提供与用户意图相对应的服务的含义表示。对话处理中的含义表示可以是自然语言理解的结果,也可以是自然语言生成的输入。例如,对话管理器120可以分析用户的语音以生成表达用户意图的含义表示,并考虑到对话流和情景来生成与下一系统语音相对应的含义表示。
结果处理器130可以基于从对话管理器120输出的含义表示来生成要作为系统响应输出的语句(以下称为输出语句)。所生成的语句可以通过设置在结果处理器130中的文本到语音(TTS)引擎合成为语音信号,并通过用户终端设置的扬声器输出。
结果处理器130可以通过应用自然语言生成技术生成输出语句,并且可以通过应用N-best算法生成多个输出语句。
当结果处理器130基于输入语句的含义表示生成三个输出语句(输出语句1、输出语句2和输出语句3)时,这三个输出语句输入到对话管理器120中。对话管理器120可以为多个输出语句的每一个生成含义表示。
如上所述,对话管理器120可以应用自然语言理解技术来分析输入语句的含义。对话管理器120可以通过使用相同技术分析由结果处理器130生成的输出语句来生成含义表示。
对话管理器120可以分别为输出语句1生成含义表示1,为输出语句2生成含义表示2,以及为输出语句3生成含义表示3,并将结果发送给结果处理器130。
结果处理器130可以基于输入语句的含义表示和多个输出语句的每一个的含义表示来生成系统响应。
在下文中,下面参考图2更详细地描述由结果处理器生成系统响应的过程。
图2是示出根据实施方案的对话系统的结果处理器的具体示例的示意图。
参考图2,根据实施方案的对话系统100的结果处理器130可以包括语句生成器131和确定器132。语句生成器131和确定器132也基于要执行的操作而进行分类。语句生成器131和确定器132可以共享:存储器或计算机可读介质,其中存储了包括计算机可执行指令和相关数据的程序;以及执行所述程序的处理器。
语句生成器131可以通过将自然语言生成技术应用于由对话管理器120生成的输入语句的含义表示来生成多个输出语句。
语句生成器131可以使用N-best算法为多个输出语句的每一个计算置信度得分,并以置信度得分从高到低的顺序输出N个输出语句。换句话说,可以使用N-best算法对多个输出语句进行排序。置信度得分是衡量自然语言生成结果的结果可靠性的指标,可以表示为0到1之间的值。
如在图2的示例中所示,语句生成器131可以按照置信度得分从高到低的顺序输出三个输出语句。三个输出语句再次输入到对话管理器120。
对话管理器120可以应用自然语言理解技术来为三个输出语句的每一个生成含义表示。可以分别生成并输出输出语句1的含义表示1、输出语句2的含义表示2和输出语句3的含义表示3。输出的含义表示输入到结果处理器130。
结果处理器130的确定器132可以基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度来对多个输出语句重新排序。
由于输入语句的含义表示和输出语句的含义表示相似,因此提高了输出语句的准确性。相应地,确定器132可以基于输入语句与输出语句的含义表示之间的相似度,将相似度得分分配给多个输出语句的每一个。相似程度越高,相似度得分越高。
确定器132可以计算通过将多个输出语句的每一个的可靠性得分和相似度得分相加而获得的总得分,并且基于该总得分来重新确定多个输出语句的排序。可以按照总得分从高到低的顺序对排序进行重新排序,最后,可以将具有最高总得分的输出语句选择为系统响应。
在控制框图中,在结果处理器130中仅示出了语句生成器131和确定器132,但是,结果处理器130可以具有文本到语音(TTS)引擎和控制信号发生器,所述文本到语音(TTS)引擎用于合成从确定器132输出的最终输出语句,所述控制信号发生器用于生成各种控制信号以提供与用户意图相对应的服务。
根据上述操作,从结果处理器130输出的系统响应可以通过设置在用户终端中的扬声器作为语音输出。
在下文中,下面参考图3至图6描述从根据实施方案的对话系统100输出的系统响应的具体示例。
图3至图6是示出当用户的话语输入到根据实施方案的对话系统时输出系统响应的详细过程的示意图。
参考图3,当用户的语音“给洪吉东发短信”输入到对话系统100中时,语音识别器110将用户的语音转换为文本以生成输入语句。
输入的语句输入到对话管理器120,并且可以应用自然语言理解技术来分析输入的语句“给洪吉东发短信”的含义,并基于分析结果生成含义表示。
对话管理器120可以确定:输入语句“给洪吉东发短信”的动作是“短信_发送”;语音行为是“请求”,因素_收件人是“洪吉东”。对话管理器120可以生成包括该信息的含义表示。所生成的含义表示输入到结果处理器130。
结果处理器130可以基于输入语句的含义表示生成多个输出语句。如上所述,可以为多个输出语句计算置信度得分,并且可以按照置信度得分从高到低的顺序对N个输出语句进行排序。参考图4,结果处理器130可以基于输入语句的含义表示生成输出语句1:“您发给洪吉东的文本正确吗?”,输出语句2:“请说出要发送给洪吉东的短信内容”,以及输出语句3:“请告诉我您要发送的短信内容”。结果处理器130可以基于置信度得分对三个语句进行排序。在此示例中,顺序确定为按照输出语句1(置信度得分:0.7)、输出语句2(置信度得分:0.6)、输出语句3(置信度:0.3)的顺序。
基于输入语句的含义表示生成的多个输出语句输入到对话管理器120。
对话管理器120可以:以与分析输入语句的含义相同的方式,通过对多个输出语句的每一个应用自然语言理解技术来分析含义;并生成含义表示。
参考图5,作为输出语句1的语义分析的结果,可以确定动作是“短信_发送”,语音行为是“确认”,因素_收件人是“洪吉东”,并且生成包括该信息的含义表示1。
作为输出语句2的语义分析的结果,可以确定动作是“短信_发送”,语音行为是“请求”,因素_收件人是“洪吉东”,并且生成包括该信息的含义表示2。
作为输出语句3的语义分析的结果,可以确定动作是“短信_发送”,语音行为是“请求”,并且生成包括该信息的含义表示3。
由对话管理器120生成的多个输出语句的每一个的含义表示输入到结果处理器130。
结果处理器130可以通过将多个输出语句的每一个的含义表示与输入语句的含义表示进行比较来向多个输出语句的每一个分配相似度得分。如上所述,含义表示越相似,则可以给出越高的相似度得分。
参考图6,基于含义表示的比较结果,输出语句1的相似度得分为0.66,输出语句2的相似度得分为1.0,输出语句3的相似度得分为0.66。
结果处理器130可以通过将多个输出语句的每一个的置信度得分和相似度得分相加来计算总得分。输出语句1的总得分是0.7+0.66=1.36。输出语句2的总得分是0.6+1.0=1.6。输出语句3的总得分是0.3+0.66=0.96。
结果处理器130基于总得分对多个输出语句进行重新排序。如果按照总得分从高到低的顺序对排序进行重新排序,则输出语句2排第一,输出语句1排第二,输出语句3排第三。
因此,结果处理器130可以将第一优先级的输出语句2“请告诉我您要发送的短信内容”转换为语音信号,并输出结果作为系统响应。
如上所述,输入语句的含义表示与输出语句的含义表示之间的相似度越高,则输出语句可以越准确。可以将相同的原理应用于翻译装置以提高翻译结果的准确性。在下文中,下面描述根据实施方案的翻译装置。
图7是根据实施方案的翻译装置的控制框图。
参考图7,根据实施方案的翻译器200可以包括:翻译器210、第一含义分析器220、第二含义分析器230以及确定器240,所述翻译器210用于将第一语言的输入语句翻译成第二语言并生成多个输出语句;所述第一含义分析器220用于为第一语言的输入语句生成含义表示;所述第二含义分析器230用于为第二语言的多个输出语句的每一个生成含义表示;所述确定器240基于第一语言的输入语句的含义表示和第二语言的多个输出语句的含义表示来确定第二语言的多个输出语句中的最终输出语句。第一含义分析器220可以称为第一语义分析器或第一对话管理器。第二含义分析器230可以称为第二语义分析器或第二对话管理器。
根据实施方案的翻译装置200可以是用于通过执行机器翻译将输入语句翻译成另一种语言的设备。用户可以以文本的形式输入输入的语句,或者可以通过语音以语音信号的形式输入。当以语音信号的形式输入时,语音识别器可以将语音信号转换为文本并将其输入到翻译装置200中,或者翻译装置200可以包括语音识别器。在任何一种情况下,假定输入到翻译器210的输入语句是文本。
根据实施方案的翻译装置200可以包括:至少一个存储器或计算机可读介质以及至少一个处理器,所述至少一个存储器或计算机可读介质用于存储包含计算机可执行指令和相关数据的程序,以用于执行以下描述的操作;所述至少一个处理器用于执行所存储的程序。
该实施方案中的组件不是基于物理位置或组成而是基于操作来分类的,并且可以包括翻译器210、第一含义分析器220、第二含义分析器230等。确定器240可以使用单独的存储器和处理器,并且它们中的部分或全部可以共享存储器和处理器。
根据实施方案的翻译装置200可以实现为服务器,并且在这种情况下,可以在服务器中设置翻译装置200的组件210、220、230和240。然而,翻译装置200的组件210、220、230和240中的一些可以设置在连接用户和翻译装置200的用户终端中。
或者,用户可以下载并使用用于在用户终端上执行对话系统100的组件的一些功能的程序。
在诸如车辆、移动设备或PC的用户终端中设置了输入设备和输出设备,输入设备例如麦克风、触摸屏和键盘,向输入设备输入第一语言的语句;输出设备例如显示器和扬声器,输出翻译成第二语言的语句。用户终端可以通过无线通信连接到翻译装置200。尽管未在图7的控制框图中示出,翻译装置200可以进一步包括无线通信模块,该无线通信模块可以通过无线通信与用户终端交换数据。
翻译器210可以通过使用各种机器翻译模型中的一种将第一语言的输入语句翻译成第二语言来生成多个输出语句。第一语言和第二语言仅需要彼此不同。第一语言和第二语言的类型可以包括但不限于韩语、英语、中文、日语、西班牙语、葡萄牙语、德语、法语和印度语。
当翻译器210生成多个输出语句时,可以使用N-best算法。如上所述,在对话系统100的实施方案中,翻译器210可以对第二语言的多个输出语句进行排序。可以根据置信度得分从高到低的顺序来确定第二语言的多个输出语句的排序。
第一含义分析器220可以将自然语言理解技术应用于第一语言的输入语句,以分析输入语句的含义并生成输入语句的含义表示。含义分析和含义表示的描述如上在对话系统100的实施方案中所述。
第二含义分析器230可以通过将自然语言理解技术应用于第二语言的多个输出语句来分析多个输出语句的每一个的含义并生成含义表示。
如图7所示,当翻译器210生成输出语句1、输出语句2和输出语句3时,第二含义分析器230可以生成并向确定器240输入输出语句1的含义表示1、输出语句2的含义表示2以及输出语句3的含义表示3。
第一含义分析器220和第二含义分析器230仅在要分析的语句的语言上不同,并且它们使用通过应用自然语言理解技术来分析含义的相同方法。
确定器240基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,再次确定第二语言的多个输出语句的排序。
详细地,随着含义表示之间的相似度增加,确定器240可以分配更高的相似度得分。确定器240可以对多个输出语句的每一个计算通过将置信度得分和相似度得分相加而获得的总得分。确定器240可以按照增加的总得分的顺序对多个输出语句进行排序。
确定器240可以将具有最高总得分的输出语句确定为最终输出语句。翻译装置200可以输出最终输出语句作为输入语句的翻译语句。最终输出语句可以作为文本输出,也可以合成为语音信号并作为系统响应输出。
在下文中,下面参考图8至图10详细描述根据实施方案的翻译装置200的操作。
图8至图10是示出当输入语句输入到根据实施方案的翻译装置200时输出翻译语句的具体过程的示意图。
在此示例中,第一语言是英语,第二语言是韩语。如图8所示,当第一语言的输入语句“Trump met Moon”输入到翻译装置200时,翻译器210将输入语句翻译成第二语言的韩语,并转换且生成多个输出语句。
例如,您可以生成输出语句1
Figure BDA0002480539080000151
输出语句2
Figure BDA0002480539080000152
和输出语句3
Figure BDA0002480539080000153
Figure BDA0002480539080000154
翻译器210可以通过应用N-best算法为多个输出语句的每一个分配置信度得分。例如,输出语句1可以具有0.7的置信度得分,输出语句2可以具有0.6的置信度得分,输出语句3可以具有0.4的置信度得分。
因此,根据N-best算法,多个输出语句按照输出语句1→输出语句2→输出语句3的顺序排序。
输出语句1、输出语句2和输出语句3可以输入到第二含义分析器230。第二含义分析器230可以通过分析作为第二语言的韩语的含义来生成含义表示。
参考图9,第二含义分析器230可以分析输出语句1的含义,以确定语音行为是“信息”并且对象名称是“
Figure BDA0002480539080000162
/人名”,并且可以生成包括所述语音行为和对象名称的含义表示1。
第二含义分析器230可以分析输出语句2的含义,以确定语音行为是“通知”并且对象名称是“
Figure BDA0002480539080000163
/人名”,“
Figure BDA0002480539080000161
/人名”,并且可以生成包括所述语音行为和对象名称的含义表示2。
第二含义分析器230可以分析输出语句3的含义,以确定语音行为是“通知”并且对象名称是“
Figure BDA0002480539080000164
/人名”,“
Figure BDA0002480539080000165
/人名”,并且可以生成包括所述语音行为和对象名称的含义表示3。
输入语句的含义表示和多个输出语句的每一个的含义表示输入到确定器240。确定器240将输入语句的含义表示与多个输出语句的每一个的含义表示进行比较以确定最终输出语句。
参考图10,确定器240:比较输入语句的含义表示1和输出语句1的含义表示1,计算相似度得分0.66;比较输入语句的含义表示和输出语句2的含义表示2,计算相似度得分1.0;比较输入语句的含义表示和输出语句3的含义表示3,计算相似度得分1.0。
确定器240可以计算通过将多个输出语句的每一个的置信度得分和相似度得分相加而获得的总得分,并且基于该总得分重新确定排序。
根据总得分,排序变为输出语句2→输出语句3→输出语句1的顺序。确定器240可以将具有最高总得分的输出语句2确定为最终输出语句并输出。
这样,当考虑输入语句的含义表示与翻译了输入语句的输出语句的含义表示之间的相似性时,可以将具有与输入语句的含义相似的含义的翻译语句输出给用户。
在下文中,下面描述根据实施方案的对话处理方法和翻译方法。
在实施根据实施方案的对话处理方法时,可以使用上述对话系统100。在实施根据实施方案的翻译方法时,可以使用上述翻译装置200。因此,除非另有说明,否则对话系统100和翻译装置200的前述描述可以等同地应用于对话处理方法和翻译方法。
图11是根据实施方案的对话处理方法的流程图。
根据图11所示的对话处理方法,通过将用户语音转换为文本来生成输入语句(310),并且生成输入语句的含义表示(320)。语音识别器110可以使用语音识别算法将用户的语音转换为文本。对话管理器120可以使用自然语言理解技术来生成输入语句的含义表示。
生成对应于含义表示的多个输出语句(330)。当输入语句的含义表示输入到结果处理器130时,结果处理器130使用N-best算法生成与输入语句的含义表示相对应的多个输出语句。可以基于每个输出语句的置信度得分来确定排序。
生成多个输出语句的每一个的含义表示(340)。由结果处理器130生成的多个输出语句输入到对话管理器120。对话管理器120通过以与输入语句相同的方式应用自然语言理解技术来分析多个输出语句的每一个的含义,并生成含义表示。
基于输入语句的含义表示和多个输出语句的每一个的含义表示来生成系统响应(350)。多个输出语句的每一个的含义表示输入回结果处理器130。结果处理器130可以基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度来向多个输出语句的每一个分配相似度得分。含义表示之间的相似程度越高,相似度得分越高。
结果处理器130可以计算通过将多个输出语句的每一个的置信度得分和相似度得分相加而获得的总得分。结果处理器130可以根据总得分重新确定排序。结果处理器130可以将具有最高总得分的输出语句确定为系统响应。
图12是根据实施方案的翻译方法的流程图。
根据图12的翻译方法,通过将第一语言的输入语句翻译成第二语言来生成多个输出语句(410)。当翻译器210接收第一语言的输入语句时,翻译器210使用N-best算法生成第二语言的多个输出语句,计算每个输出语句的置信度得分,并基于置信度得分确定多个输出语句的排序。
可以生成第一语言的输入语句的含义表示(420),并且可以生成第二语言的多个输出语句的每一个的含义表示(430)。第一含义分析器220可以通过将由对话系统100执行的自然语言理解技术应用于第一语言的输入语句来分析含义,并且生成含义表示。第二含义分析器230可以通过将由对话系统100执行的自然语言理解技术应用于第二语言的多个输出语句来分析含义并且生成含义表示。
基于第一语言的输入语句的含义表示和第二语言的多个输出语句的含义表示,在第二语言的多个输出语句中确定最终输出语句(440)。将第一语言的输入语句的含义表示和第二语言的多个输出语句的每一个的含义表示输入到确定器240。确定器240可以基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,对第二语言的多个输出语句重新排序。与输入语句的含义表示的相似程度越高,向第二语言的输出语句分配的相似度得分越高,并且可以计算多个输出语句的每一个的置信度得分和相似度得分之和。确定器240可以基于总得分重新确定多个输出语句的排序,并且总得分越高,排序就可以越高。确定器240可以再次根据确定的排序将具有最高排序的输出语句确定为最终输出语句。
根据上述实施方案,在对话系统或翻译装置中生成输入语句的输出语句时,通过考虑输入语句的含义表示与输出语句的含义表示之间的相似度,可以提高输出语句的准确性。
如上所述,已经参考附图描述了所公开的实施方案。本领域普通技术人员应该理解,可以以与所公开的实施方案不同的形式来实现本发明,而不改变本发明的技术精神或基本特征。所公开的实施方案是示例,并且不应解释为限制性的。
本发明的一方面致力于提供一种对话系统和对话处理方法,所述对话系统和对话处理方法可以通过使用用于分析用户语音的含义的语义分析模型生成系统响应来提高系统响应的准确性和用户便利性。
此外,本发明的一方面致力于提供一种翻译装置和翻译方法,所述翻译装置和翻译方法可以:在从输入语言翻译成另一种语言的多个输出语句中选择最终输出语句时,通过使用用于分析用户话语的含义的语义分析模型提高翻译的准确性。

Claims (24)

1.一种对话系统,其包括:
语音识别器,其配置为通过将用户的语音转换为文本来生成输入语句;
对话管理器,其配置为生成输入语句的含义表示;
结果处理器,其配置为生成与所述输入语句的含义表示相对应的多个输出语句;
其中,所述对话管理器生成多个输出语句的每一个的含义表示;
所述结果处理器基于输入语句的含义表示和多个输出语句的每一个的含义表示来生成系统响应。
2.根据权利要求1所述的对话系统,其中,
所述结果处理器使用N-best算法确定多个输出语句的排序。
3.根据权利要求2所述的对话系统,其中,
所述结果处理器基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度,再次确定多个输出语句的排序。
4.根据权利要求1所述的对话系统,其中,
所述结果处理器使用N-best算法为多个输出语句的每一个分配置信度得分。
5.根据权利要求4所述的对话系统,其中,
所述结果处理器基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度,为多个输出语句的每一个分配相似度得分。
6.根据权利要求5所述的对话系统,其中,
所述结果处理器基于将所述置信度得分和所述相似度得分相加的总得分来生成系统响应。
7.一种翻译装置,其包括:
翻译器,其配置为将第一语言的输入语句翻译成第二语言以生成多个输出语句;
第一对话管理器,其配置为生成第一语言的输入语句的含义表示;
第二对话管理器,其配置为生成第二语言的多个输出语句的每一个的含义表示;以及
确定器,其配置为基于第一语言的输入语句的含义表示和第二语言的多个输出语句的每一个的含义表示来确定第二语言的多个输出语句中的最终输出语句。
8.根据权利要求7所述的翻译装置,其中,
所述翻译器使用N-best算法确定第二语言的多个输出语句的排序。
9.根据权利要求8所述的翻译装置,其中,
所述确定器基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,再次确定多个输出语句的排序。
10.根据权利要求7所述的翻译装置,其中,
所述翻译器使用N-best算法为第二语言的多个输出语句的每一个分配置信度得分。
11.根据权利要求10所述的翻译装置,其中,
所述确定器基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,为第二语言的多个输出语句的每一个分配相似度得分。
12.根据权利要求11所述的翻译装置,其中,
所述确定器基于将所述置信度得分和所述相似度得分相加的总得分来确定最终输出语句。
13.一种对话处理方法,所述方法包括:
通过将用户的语音转换为文本来生成输入语句;
生成输入语句的含义表示;
生成与输入语句的含义表示相对应的多个输出语句;
生成多个输出语句的每一个的含义表示;
基于输入语句的含义表示和多个输出语句的每一个的含义表示来生成系统响应。
14.根据权利要求13所述的方法,其中,
生成与输入语句的含义表示相对应的多个输出语句包括:使用N-best算法确定多个输出语句的排序。
15.根据权利要求14所述的方法,其中,
生成系统响应包括:基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度,再次确定多个输出语句的排序。
16.根据权利要求13所述的方法,其中,
生成与输入语句的含义表示相对应的多个输出语句包括:使用N-best算法为多个输出语句的每一个分配置信度得分。
17.根据权利要求16所述的方法,其中,
生成系统响应包括:基于输入语句的含义表示与多个输出语句的每一个的含义表示之间的相似度,为多个输出语句的每一个分配相似度得分。
18.根据权利要求17所述的方法,其中,
生成系统响应包括:基于将置信度得分和相似度得分相加的总得分来生成系统响应。
19.一种翻译方法,所述方法包括:
通过将第一语言的输入语句翻译成第二语言来生成多个输出语句;
生成第一语言的输入语句的含义表示;
生成第二语言的多个输出语句的每一个的含义表示;
基于第一语言的输入语句的含义表示和第二语言的多个输出语句的每一个的含义表示来确定第二语言的多个输出语句中的最终输出语句。
20.根据权利要求19所述的方法,其中,
生成多个输出语句包括:使用N-best算法确定第二语言的多个输出语句的排序。
21.根据权利要求20所述的方法,其中,
确定最终输出语句包括:基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,再次确定多个输出语句的排序。
22.根据权利要求19所述的方法,其中,
生成多个输出语句包括:使用N-best算法为第二语言的多个输出语句的每一个分配置信度得分。
23.根据权利要求22所述的方法,其中,
确定最终输出语句包括:基于第一语言的输入语句的含义表示与第二语言的多个输出语句的每一个的含义表示之间的相似度,为第二语言的多个输出语句的每一个分配相似度得分。
24.根据权利要求23所述的方法,其中,
确定最终输出语句进一步包括:基于将置信度得分和相似度得分相加的总得分来确定最终输出语句。
CN202010377509.3A 2019-09-25 2020-05-07 对话系统、对话处理方法、翻译装置和翻译方法 Pending CN112651247A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190118290A KR20210036169A (ko) 2019-09-25 2019-09-25 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
KR10-2019-0118290 2019-09-25

Publications (1)

Publication Number Publication Date
CN112651247A true CN112651247A (zh) 2021-04-13

Family

ID=74880258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010377509.3A Pending CN112651247A (zh) 2019-09-25 2020-05-07 对话系统、对话处理方法、翻译装置和翻译方法

Country Status (3)

Country Link
US (2) US11295733B2 (zh)
KR (1) KR20210036169A (zh)
CN (1) CN112651247A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645478B2 (en) * 2020-11-04 2023-05-09 Adobe Inc. Multi-lingual tagging for digital images
US11115353B1 (en) * 2021-03-09 2021-09-07 Drift.com, Inc. Conversational bot interaction with utterance ranking
US20220398382A1 (en) * 2021-06-09 2022-12-15 International Business Machines Corporation Determining unknown concepts from surrounding context

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
JP4654745B2 (ja) * 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
US8838434B1 (en) * 2011-07-29 2014-09-16 Nuance Communications, Inc. Bootstrap call router to other languages using selected N-best translations
US9189476B2 (en) * 2012-04-04 2015-11-17 Electronics And Telecommunications Research Institute Translation apparatus and method thereof for helping a user to more easily input a sentence to be translated
US9269354B2 (en) * 2013-03-11 2016-02-23 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
JP5449633B1 (ja) * 2013-03-22 2014-03-19 パナソニック株式会社 広告翻訳装置、広告表示装置、および広告翻訳方法
CN104598445B (zh) * 2013-11-01 2019-05-10 腾讯科技(深圳)有限公司 自动问答系统和方法
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
CN107077843A (zh) * 2014-10-30 2017-08-18 三菱电机株式会社 对话控制装置和对话控制方法
US9836452B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
CN106484681B (zh) * 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
KR101934280B1 (ko) * 2016-10-05 2019-01-03 현대자동차주식회사 발화내용 분석 장치 및 방법
JP6706810B2 (ja) * 2016-12-13 2020-06-10 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
US10692498B2 (en) * 2017-10-23 2020-06-23 International Business Machines Corporation Question urgency in QA system with visual representation in three dimensional space
US10741176B2 (en) * 2018-01-31 2020-08-11 International Business Machines Corporation Customizing responses to users in automated dialogue systems

Also Published As

Publication number Publication date
KR20210036169A (ko) 2021-04-02
US20220180864A1 (en) 2022-06-09
US20210090557A1 (en) 2021-03-25
US11295733B2 (en) 2022-04-05

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
Ghai et al. Literature review on automatic speech recognition
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
CN111402862A (zh) 语音识别方法、装置、存储介质及设备
Nasereddin et al. Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
CN112017648A (zh) 加权有限状态转换器构建方法、语音识别方法及装置
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
KR20230129094A (ko) 멀티모달 기반 실시간 감정인식 방법 및 장치
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
Sahu et al. A study on automatic speech recognition toolkits
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
KR20210130024A (ko) 대화 시스템 및 그 제어 방법
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Wong Automatic spoken language identification utilizing acoustic and phonetic speech information
Pranjol et al. Bengali speech recognition: An overview
Gunasekara et al. Real-time translation of discrete sinhala speech to unicode text
CN112997247A (zh) 利用大数据的最佳语言模型生成方法及用于其的装置
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
Mon et al. Building HMM-SGMM continuous automatic speech recognition on Myanmar Web news
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination