CN107526720A - 意思生成方法、意思生成装置以及程序 - Google Patents

意思生成方法、意思生成装置以及程序 Download PDF

Info

Publication number
CN107526720A
CN107526720A CN201710328057.8A CN201710328057A CN107526720A CN 107526720 A CN107526720 A CN 107526720A CN 201710328057 A CN201710328057 A CN 201710328057A CN 107526720 A CN107526720 A CN 107526720A
Authority
CN
China
Prior art keywords
meaning
sentence
text
information
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710328057.8A
Other languages
English (en)
Inventor
牛尾贵志
山上胜义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2017007869A external-priority patent/JP6832501B2/ja
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN107526720A publication Critical patent/CN107526720A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供意思生成方法、意思生成装置以及程序。意思生成方法是意思生成装置(100)中的意思生成方法,包括:取得使可能成为说话文的文句(134)的文本数据与表示文句(134)的意思的意思信息(132)相关联的意思训练数据(131)(S112),取得使文句(134)的文本数据与文句(134)的同义转换文(142)的文本数据相关联的同义转换训练数据(141)(S113),通过将意思训练数据(131)和同义转换训练数据(141)应用于共通的模型,学习包括说话文所包含的单词的重要度在内的、说话文与意思信息(132)及同义转换文(142)的关联(S114~S116),将学习的结果作为学习结果信息(123)进行存储。由此,能够提高精度。

Description

意思生成方法、意思生成装置以及程序
技术领域
本公开涉及生成说话文的意思的意思生成方法以及意思生成装置。
背景技术
意思生成技术(说话意图生成技术)是将相同意思的话转换为意思信息(意思标签)的技术。具体而言是,使用由相同意思的表达方式与意思信息的组(set)而成的训练文档,将对意思信息有贡献的高频度的语句作为特征来进行学习(例如参照非专利文献1)。另外,也存在使用相同意思的日文和英文等的对译训练文档来学习文字串间的转换的现有技术(例如参照非专利文献2)。
现有技术文献
专利文献
专利文献1:日本专利第5362651号公报
非专利文献
非专利文献1:Andrew M.Dai,Quoc V.Le,"Semi-supervised SequenceLearning",NIPS 2015
非专利文献2:Ilya Sutskever,Oriol Vinyals,Quoc Le,"Sequence toSequence Learning with Neural Networks",NIPS 2014
非专利文献3:Katja Filippova,Enrique Alfonseca,Carlos A.Colmenares,Lukasz Kaiser,Oriol Vinyals Google Research,“Sentence Compression by Deletionwith LSTMs”,Proceedings of the 2015 Conference on Empirical Methods inNatural Language Processing,pages 360-368
发明内容
发明所要解决的问题
然而,在这种技术中,当不直接对应该转换的意图有贡献的非重要词(语)高频度地出现于文本时,存在误将非重要词识别为重要词的情况。由此,为了转换为准确的意思标签,需要进一步的改善。
于是,本公开的目的在于,提供能够提高精度的意思生成方法或者意思生成装置。
用于解决问题的技术方案
本公开的一个技术方案涉及的意思生成方法是意思生成装置中的意思生成方法,包括:取得使可能成为说话文的第1文句的文本数据与表示所述第1文句的意思的意思信息相关联的第1意思训练数据,取得使所述第1文句的文本数据与作为所述第1文句的同义转换文的第2文句的文本数据相关联的第1同义转换训练数据,通过将所述第1意思训练数据和所述第1同义转换训练数据应用于共通的模型,学习包括所述说话文所包含的单词的重要度在内的、所述说话文与所述意思信息及所述同义转换文的关联,将所述学习的结果作为学习结果信息进行存储。
发明效果
本公开能提供能够提高精度的意思生成方法或者意思生成装置。
附图说明
图1是表示实施方式涉及的意思生成装置的构成的框图。
图2是实施方式涉及的由意思生成装置进行的处理的流程图。
图3是实施方式涉及的学习处理的流程图。
图4是表示实施方式涉及的意思训练语料库的一例的图。
图5是表示实施方式涉及的同义转换训练语料库的一例的图。
图6是表示实施方式涉及的神经网络的概略的图。
图7是表示实施方式涉及的成为神经网络的输入输出的向量表示的一例的图。
图8是实施方式涉及的意思生成处理的流程图。
图9是表示实施方式涉及的说话文表的一例的图。
图10是表示实施方式涉及的意思信息表的一例的图。
图11是表示实施方式的比较例涉及的意思信息表的一例的图。
图12是实施方式涉及的对话系统的框图。
标号说明
100:意思生成装置 101、103、105:存储部
102、104:处理部 111:意思训练数据取得部
112:同义转换训练数据取得部 113:学习部
114:意思学习部 115:同义转换学习部
116:说话文取得部 117:词素解析部
118:意思生成部 121:意思训练语料库
122:同义转换训练语料库 123:学习结果信息
124:说话文表 125、125A:意思信息表
131:意思训练数据 132:意思信息
133:文句ID 134:文句
141:同义转换训练数据 142:同义转换文
151、152、153:神经网络模型 161:说话文数据
162:说话ID 163:说话文
171:意思信息数据 172:后验概率
400:便携终端 401:麦克风
402:信号处理部 403、501:通信部
404:应答执行部 500:服务器
502:语音处理部 503:解析部
504:应答生成部
具体实施方式
(成为本公开的基础的见解)
非专利文献1中记载了下述技术:通过以由单词串和标签(意思信息)的组而成的训练文档为基础,使用神经网络模型来进行学习,由此提取语句对于标签的重要度,并预测极性(正/负)等标签。在该技术中,即使在神经网络之中,也使用适合于单词串等时间序列数据的处理的被称为LSTM(Long short-term memory,长短期记忆)的递归神经网络(Recurrent Neural Network)的变形(亚种)。由此,对于任意长度且较长的单词串,该技术也能够适用。
非专利文献2中记载了下述技术:通过以由两个单词串的组而成的训练文档为基础,用LSTM来学习单词串间的转换,由此提取单词间依存关系强的语句。该技术主要能够用于翻译等。
在此,为了从用户说的话中提取重要或者非重要语,多利用指标TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆文档频率),该指标TF-IDF使用了在某意思标签内的单词出现次数和在语言资源整体中的单词出现次数。然而,在TF-IDF中,因记述者的偏重,造成仅出现于少数意思标签的语句的重要度增高。
针对该问题,在专利文献1记载的技术中,利用记述有依赖任务的说话的Web上的结构化数据。在该技术中,将所说的话划分为具有不同作用的文句群(部组(section))、例如“提问正文”、“回答文”、“意见(comment,评论)”等,利用语句所出现的部组数来决定重要度,由此减少记述者的表达的不稳定(摇摆、波动)而提取重要语。
非专利文献3中记载了下述技术:基于新闻报道的正文和标题的文本,在文本内按各单词赋予重要或者非重要,并进行归纳,由此自动提取重要语。
然而,专利文献1以及非专利文献3所记载的技术均需要在“标题”、“正文”、“回答文”、“意见”等被结构化后的Web文档中记述有想要转换为依赖于任务的意思标签的文句。因此,存在如下问题:在没有获得记述有用户说的话的Web文档的情况下,则无法提取重要词。
针对这种问题,本公开的一个技术方案涉及的意思生成方法是意思生成装置中的意思生成方法,包括:取得使可能成为说话文的第1文句的文本数据与表示所述第1文句的意思的意思信息相关联的第1意思训练数据,取得使所述第1文句的文本数据与作为所述第1文句的同义转换文的第2文句的文本数据相关联的第1同义转换训练数据,通过将所述第1意思训练数据和所述第1同义转换训练数据应用于共通的模型,学习包括所述说话文所包含的单词的重要度在内的、所述说话文与所述意思信息及所述同义转换文的关联,将所述学习的结果作为学习结果信息进行存储。
由此,在说话文与意思信息的关联时,学习说话文与同义转换文的关联。由此,能够提高说话文与意思信息的关联的精度。
例如,也可以为,所述意思生成方法还包括:取得由用户说出的第3文句的文本数据,基于所述学习结果信息,生成与所述第3文句对应的意思信息。
由此,使用学习结果,能够根据说话文生成意思信息。
例如,也可以为,从积累有2个以上的意思训练数据的第1语料库中取得所述第1意思训练数据。
例如,也可以为,从积累有2个以上的同义转换训练数据的第2语料库中取得所述第1同义转换训练数据。
例如,也可以为,所述模型是神经网络模型。
例如,也可以为,通过在关联于所述第1文句的所述意思信息及所述第2文句、与使用所述模型算出的所述意思信息及所述第2文句相对于所述第1文句的后验概率之间进行误差反向传播学习,从而执行所述学习。
例如,也可以为,使用在对所述说话文与所述意思信息的关联的学习中获得的内部信息来进行对所述说话文与所述同义转换文的关联的学习。
例如,也可以为,所述模型是神经网络模型,所述内部信息是所述神经网络模型中的各层间的权重。
另外,本公开的一个技术方案涉及的意思生成装置具备:意思训练数据取得部,其取得使可能成为所述说话文的第1文句的文本数据与表示所述第1文句的意思的意思信息相关联的第1意思训练数据;同义转换训练数据取得部,其取得使所述第1文句的文本数据与作为所述第1文句的同义转换文的第2文句的文本数据相关联的第1同义转换训练数据;学习部,其通过将所述第1意思训练数据和所述第1同义转换训练数据应用于共通的模型,学习包括所述说话文所包含的单词的重要度在内的、所述说话文与所述意思信息及所述同义转换文的关联;以及存储部,其将所述学习的结果作为学习结果信息进行存储。
由此,在说话文与意思信息的关联时,学习说话文与同义转换文的关联。由此,能够提高说话文与意思信息的关联的精度。
另外,本公开的一个技术方案涉及的程序,其使计算机执行所述意思生成方法。
此外,这些总括性的或者具体的技术方案既可以通过系统、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
以下,参照附图,对本公开的实施方式进行说明。此外,以下说明的实施方式均表示本公开的一个具体例。在以下的实施方式中表示的数值、形状、构成要素、步骤、步骤的顺序等为一例,并非旨在限定本公开。另外,对于以下的实施方式中的构成要素中的、没有记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。另外,在所有的实施方式中,也可以组合各自的内容。
(实施方式)
首先,说明本实施方式涉及的意思生成装置100的构成。图1是表示本实施方式的意思生成装置100的构成的框图。
该意思生成装置100生成说话文的意思。意思生成装置100例如通过计算机来构成,具备存储部101、处理部102、存储部103、处理部104以及存储部105。
存储部101、103以及105例如通过硬盘驱动器或者固态硬盘(solid-state drive)等可改写的非易失性的存储器来构成。
存储部101存储意思训练语料库121、同义转换训练语料库122以及说话文表124。存储部103存储学习结果信息123。存储部105存储意思信息表125。
处理部102以及104例如通过CPU、ASIC或者FPGA等处理器来构成。处理部102具备学习部113。学习部113具备意思学习部114以及同义转换学习部115。处理部104具备词素解析部117以及意思生成部118。
此外,处理部102以及104所具备的各处理模块的功能通过CPU等处理器执行保持于计算机的、计算机可读取的程序来实现。
接着,说明意思生成装置100的工作。图2是表示意思生成装置100的工作的概要的流程图。
首先,意思生成装置100进行下述学习处理:使用意思训练语料库121所包含的多个意思训练数据、以及同义转换训练语料库122所包含的多个同义转换训练数据,学习说话文与意思信息的对应关系(S101)。
接着,意思生成装置100进行下述意思生成处理:使用上述学习处理的结果,生成说话文的意思信息(S102)。
以下,说明上述学习处理(S101)的详细内容。图3是本实施方式中的学习处理(S101)的流程图。
首先,学习部113基于伪随机数表将所有学习参数进行初始化(S111)。具体而言,学习部113将后述的图6所示的神经网络的各层间的权重进行初始化。
接着,意思训练数据取得部111取得意思训练语料库121所包含的多个意思训练数据131中的一个(S112)。图4是表示意思训练语料库121的一例的图。如图4所示,意思训练语料库121累积有2个以上的意思训练数据131。各意思训练数据131包括文句134、文句ID133以及意思信息132(意思标签),文句134是可能成为说话文的文句的文本数据,文句ID133是用于唯一地确定该意思训练数据131的标识符,意思信息132是表示该文句134的意思的教师数据。也就是说,意思训练数据131是使文句134与意思信息132相关联的数据。
通常,在日语的情况下,文本数据一般被记述为没有划分单词的文字串数据。对此,通过词素解析软件(例如MeCab)能够从在没有划分单词的状态下记述的文字串,获得划分成以单词为单位的单词串数据。由此,文本数据在按照出现顺序而划分成以单词为单位后保存为文句134。
例如,图4所示的例子是与假定患者在问诊中的回答对应的意思训练语料库121的例子。意思训练数据取得部111对文句ID133进行递增,依次取出相对应的意思训练数据131(意思信息132以及文句134)。另外,在文句ID133终止(终结)的情况下,意思训练数据取得部111返回到开头的文句ID133取出意思训练数据131。
接着,同义转换训练数据取得部112取得同义转换训练语料库122所包含的多个同义转换训练数据141中的一个(S113)。图5是表示同义转换训练语料库122的一例的图。如图5所示,同义转换训练语料库122累积有2个以上的同义转换训练数据141。各同义转换训练数据141包括文句ID133、文句134以及同义转换文142,所述同义转换文142是文句134的同义转换文的文本数据,表示作为在意思训练语料库121中与该文句134具有同一意思标签的多个其他文句的同义转换文候选。也就是说,同义转换训练数据141是使文句134与同义转换文142相关联的数据。此外,文句ID133以及文句134与意思训练数据131所包含的信息是相同的。
同义转换训练数据取得部112取得同义转换训练语料库122所包含的多个同义转换训练数据141中的、与在步骤S112中取得的意思训练数据131具有同一文句ID133的同义转换训练数据141。而且,同义转换训练数据取得部112基于伪随机数表,从由取得的同义转换训练数据141所包含的同义转换文142表示的同义转换文候选中,随机提取1个成为教师的同义转换文。
接着,学习部113通过将取得的意思训练数据131以及同义转换训练数据141应用于共通的模型,学习包括说话文(文句134)所包含的单词的重要度在内的、说话文(文句134)与意思信息132及同义转换文142的关联。在此,模型例如是后述的神经网络模型151。
具体而言,意思学习部114通过使用意思训练语料库121所包含的文本数据来进行有教师(监督)学习,学习包括语句的重要度的、文句与意思信息的关联。也就是说,意思学习部114进行用于对文句分配各意思信息的概率值的学习。作为此时的原理,是按各意思信息对以高频度出现的语句标记重要度并进行提取,从文句的单词串中综合算出各意思信息的概率。
图6是表示本实施方式中的学习部113所使用的神经网络的概略的图。意思学习部114算出对于在步骤S112中取得的意思训练数据131所包含的文句134的意思信息132的后验概率(S114)。例如,对于图4所示的文句ID133为“0002”的“いびきがあります(打呼噜)”这一文句134,使用图6所示的神经网络模型151,算出意思信息132的后验概率。
此外,在图6中,在意思学习中使用的神经网络模型152、与在同义转换学习中使用的神经网络模型153经由隐藏层2相结合,作为整体构成为1个神经网络模型151。在本实施方式中,将如此用于进行不同任务的多个模型通过一部分结合而构成的模型整体称为“共通的模型”。
另外,同义转换学习部115算出对于在步骤S113中取得的同义转换训练数据141所包含的文句134的同义转换文142的后验概率(S115)。例如,对于图5所示的文句ID133为“0002”的“いびきがあります”这一文句,使用图6所示的神经网络模型151,算出同义转换文142的后验概率。
在此,同义转换学习部115为了削减意思学习部114单体中的重要语的提取错误,利用意思学习部114的内部信息(学习参数的一部分),进行将文句转换为同义转换文的同义转换学习。也就是说,使用在对说话文(文句)与意思信息的关联的学习中所获得的内部信息来进行对说话文(文句)与同义转换文的关联的学习。具体而言,该内部信息是在图6所示的神经网络模型152和153的隐藏层1以及隐藏层2中共通的学习参数、即权重矩阵Wword以及W等。权重矩阵Wword以及W表示神经网络模型中的各层间的权重。
更具体而言,在图6的例子中,通过将意思学习所使用的神经网络模型152中的隐藏层1及隐藏层2所相邻的各层之间的权重,用作同义转换学习所使用的神经网络模型153中的隐藏层1及隐藏层2所相邻的各层之间的权重,对内部信息进行利用。此外,对于神经网络模型152与神经网络模型153之间的内部信息的利用,经由隐藏层2来进行,该隐藏层2将神经网络模型152和神经网络模型153进行结合。换言之,通过经由隐藏层2将神经网络模型152和神经网络模型153结合,能够在两个模型之间利用内部信息。
作为同义转换学习的原理,是在以时间序列输入了文句和表示文句的终止的“EOS”的状态下,输出同义转换文的第1个文字,并将说话文和表示语句的终止的“EOS”还有已经输出的同义转换文的第1个文字作为输入,从而输出同义转换文的第2个文字。再次,在直到输出“EOS”为止堆积(stack)了时间序列的输入的状态下,持续输出接下来的文字。
接着,学习部113在通过步骤S112和S113所提取的教师数据(意思信息132、同义转换文142)与通过步骤S114和S115所算出的后验概率之间进行误差反向传播学习(S116)。学习部113例如使用对于“いびきがあります”这一文句的、意思信息以及同义转换文的预测出的后验概率和作为教师数据的意思信息“いびき(呼噜)”以及同义转换文“私はいびきがあります(我打呼噜)”的向量表示,进行误差计算。另外,学习部113例如进行误差反向传播学习以使得意思信息的后验概率与教师数据的误差、和同义转换文的后验概率与教师数据的误差之平均变小。
另外,学习部113判定是否结束学习处理(S117)。例如,学习部113在即使反复进行学习也不会减少误差的情况下判定为结束学习处理。
在不结束学习处理的情况下(S117:否),再次,对接下来的意思训练数据131进行步骤S112以后的处理。另外,在结束学习处理的情况下(S117:是),将表示上述学习处理的结果的学习结果信息123存储于存储部103。具体而言,该学习结果信息123表示学习处理结束时的学习参数。
以下,详细对使用神经网络模型151的学习处理进行说明。图7是表示本实施方式中的成为神经网络模型151的输入输出的向量表示的例子的图。
首先,在学习中,如图7所示,成为输入的文句通过与文句所包含的单词数个的词汇维向量来表达。词汇维向量是仅与按各单词具有的标识号(1~词汇数)对应的要素为1、其余要素为0的向量。例如,在“私(我)”这一单词的标识号为4的情况下,词汇维向量为(0、0、0、1、…)。也就是说,一个文句可通过以时间序列排列有词汇维向量的矩阵来表达。
另外,在学习中,如图7所示,应该成为输出的意思信息通过具有意思信息的定义数作为维数的标签向量来表现。标签向量是仅与按各意思标签具有的标识号(1~意思标签的定义数)对应的要素为1、其余要素为0的向量。在图7中,x1~x3是构成文句的单词串,y是意思信息,z1~z6是构成同义转换文的单词串。
另外,图6所示的神经网络模型151以作为时间序列数据的文句为输入,通过从输入层到输出层的4层递归神经网络来构成。另外,通过使得在递归神经网络之中也具有被称为存储部件(unit)的模块,优点在于能够学习长期依存关系。该神经网络模型151的目的在于使由下述(式1)以及(式2)表达的交叉熵误差的值最小化。
P(Y=yk|x1,.....xT;θ)表示对于文句的各意思信息的后验概率,P(z1,……zT’|x1,…..xT;θ)表示成为对于文句的教师的同义转换文的后验概率。x1~xT是文句,y是意思信息,z1~zT’是同义转换文。另外,θ是神经网络的所有的学习参数。而且,学习部113为了使由(式1)和(式2)表达的误差的值最小化,通过误差反向传播法来更新θ。
在图6所示的例子中,意思学习所使用的神经网络模型152与同义转换学习所使用的神经网络模型153经由隐藏层2而结合。在这样的构成中,通过更新所有的学习参数以使各意思信息的后验概率的误差值和同义转换文的后验概率的误差值双方最小化,从而同义转换学习的结果被反映在意思学习所使用的神经网络模型152的学习参数中。
下面,对直到求得各后验概率为止的、神经网络的处理的流程进行说明。首先,学习部113在图6中的输入层到隐藏层1之间,在(式3)中,通过权重矩阵Wword来将由词汇维向量表达的xt、EOS、zt转换为削减了维数的分布向量vt
vt=Wwordxt··(式3)
接着,学习部113在图6中的隐藏层1到隐藏层2之间,如(式4)~(式7)所示那样,对分布向量乘以4个权重矩阵Wi、Wc、Wf、Wo,对表示前一个隐藏层2的输出的ht-1乘以权重矩阵Hi、Hc、Hf、Ho,并将加上偏置项即bi、bc、bf、bo而得到的结果作为激活函数即sigmoid函数的自变量,由此,算出要素中具有0~1的值的4个向量it、c t((式5)的左边)、ft、ot
it=σ(Wivt+Hiht-1+bi)··(式4)
ft=σ(Wfvt+Hfht-1+bf)··(式6)
ot=σ(Wovt+Hoht-1+bo)··(式7)
it、c t、ft、ot是用于进行对存储部件的控制的向量,自前向后依次负责存储输入控制、输入存储单元c t、存储忘却控制、存储输出控制。
接着,如(式8)所示,学习部113使用输入控制向量it、输入存储单元c t、忘却控制向量ft以及所述存储部件值ct-1,更新神经网络所具有的存储单元ct的值。
接着,如(式9)中所示,学习部113通过输出控制向量ot和存储单元ct来算出当前的隐藏层2的输出即ht
ht=ot*tanh(ct)··(式9)
(式2)~(式7)的处理是为了学习时间序列的输入与输出间的长期依存关系,而通过存储部件从输入传到输出的被称为LSTM的递归神经网络的变形(亚种)特有的处理。
另外,在图6所示的神经网络模型152中的隐藏层2到输出层之间,如(式10)所示,可获得从x1~xT的输入得到的h1 sem~hT sem的平均向量。
而且,学习部113根据(式11)对平均向量乘以权重矩阵Osem,并加上偏置项bsem,由此算出osem
osem是以意思标签的定义数为维数的向量,通过将各要素作为由(式12)表示的sigmoid函数(σ)的自变量,获得用0~1的概率值表达是否具有各意思标签的预测概率向量。
而且,预测概率向量的1个要素是指(式1)的损失函数中的P(Y=yk|x1,…..xT;θ)。
另外,在图6所示的神经网络模型153中的隐藏层2到输出层之间,如(式13)所示,可获得对从EOS、z1~zT’的输入得到的h1 para~hT’para乘以矩阵Opara,并加上偏置项bpara后的结果ot para
ot para是以词汇数为维数的向量,通过将各要素作为由(式14)表示的softmax函数的自变量,可获得表示所预测的单词的概率分布的向量。
而且,与概率分布的教师(监督)相当的要素指的是(式15)中的P(zt|c,z1,.....zt-1;θ)。在此,c是指hT sem的语境向量。
根据以上所述,通过图6所示的神经网络模型151,可算出意思信息以及同义转换文的后验概率。此外,在后述的意思生成处理(S102)中,仅使用神经网络模型152,因此也可以仅保存神经网络模型152中使用的学习参数来作为学习结果信息123。也就是说,作为学习结果信息123,存储作为学习结果的文句与意思信息的关联。另外,学习结果信息123包括作为学习结果的语句的重要度。具体而言,上述的权重矩阵Wword、W等与语句的重要度相对应。
接着,说明意思生成处理(图2的S102)的详细内容。图8是本实施方式中的意思生成处理(S102)的流程图。
首先,说话文取得部116取得说话文表124所包含的多个说话文数据161中的一个(S121)。图9是表示说话文表124的一例的图。如图9所示,说话文表124包含多个说话文数据161。各说话文数据161包括说话ID162和说话文163,说话ID162是用于唯一地确定该说话文数据161的标识符,说话文163是由用户说出的文句的文本数据。
接着,意思生成装置100基于学习结果信息123,生成与说话文163对应的意思信息。首先,词素解析部117通过将作为在没有划分单词的状态下记述的文字串的说话文163以单词为单位进行分割,获得单词串数据(S122)。例如,该功能能够通过词素解析软件(例如MeCab)等来实现。
接着,意思生成部118使用在步骤S122中获得的单词串数据,算出表示各意思信息的似然性的后验概率(S123)。具体而言,意思生成部118通过对应用了作为学习结果信息123而被保存的学习参数的神经网络模型152输入在步骤S122中获得的单词串数据,算出意思信息的后验概率。另外,算出的意思信息被保存于意思信息表125。
另外,对于说话文表124所包含的多个说话文数据161依次执行图8所示的一系列处理,将与各说话文数据161对应的意思信息保存于意思信息表125。
图10是表示通过本实施方式涉及的方法生成的意思信息表125的一例的图。图11是用于进行比较的图,是表示不进行同义转换文的学习、仅进行意思信息的学习的情况下的意思信息表125A的一例的图。
如图10所示,意思信息表125包括多个意思信息数据171。各意思信息数据171包括说话ID162、说话文163以及意思信息的后验概率172。说话ID162以及说话文163与说话文表124所包含的信息是相同的。后验概率172表示在步骤S123中算出的后验概率。具体而言,后验概率172表示多个意思信息的各自的概率。也就是说,后验概率172是表示说话文163的意思信息的信息的一例。
在此,如图11所示,在不进行同义转换文的学习的情况下,对于说话文“私は学生です(我是学生)”,后验概率为“いびき”=0.60、“頭痛(头痛)”=0.00、“腹痛(腹痛)”=0.00。在此,也可能存在各概率的总和不为1而多个意思信息接近于1这一情况。而且,在后验概率超过某阈值(例如0.5)的情况下,能够判定为说话文具有该意思信息。相反地,在后验概率没有超过阈值的情况下,能够判定为是无关的话。
如图11所示,在不进行同义转换文的学习的情况下,在“私はいびきがあります”这一表达被学习为“いびき”时,该表达所包含的“私”的重要度增高。由此,导致对于包含“私”的“私は学生です”等无关的话,“いびき”的意思信息的后验概率增高。
与此相对,如图10所示,可知在如本实施方式这样进行同义转换文的学习的情况下,对于“私は学生です”等无关的话,“いびき”的意思标签的概率值降低。如此,本实施方式涉及的意思生成装置100通过除了进行意思信息的学习以外,还进行使用由相同意思的单词串的对而构成的同义转换文的学习,能够实现使记述者共通的语句的重要度提高的学习。由此,能够准确地理解用户的意图。
如此,在本实施方式中,进行将可能成为说话文的文句转换为相同意思的文句(同义转换文)的学习。另外,此时利用了提取出单词间依存关系强的语句这一方法。例如,“いびき”等内容语与同义转换前的文句的同义词或者近义词的依存关系强。另一方面,“私”或者“昨日から(从昨天)”有可能被省略,所以与同义转换前的文句中的哪个语句的依存关系都不强。因此,由于能够将内容词等设定为重要语句,将除此之外的设定为非重要语句,所以能够提取对意思更加有贡献的重要语句。
此外,在上述说明中,表示了意思训练语料库121包含有多个意思训练数据131、同义转换训练语料库122包含有多个同义转换训练数据141、说话文表124包含有多个说话文数据161的例子,但也可以为它们中的至少一个仅包含一个意思训练数据131、同义转换训练数据141或者说话文数据161。
另外,在上述说明中,叙述了在意思生成装置100中进行学习处理和意思生成处理这两方的例子,但这些处理也可以在不同的装置中进行。
以下,对上述的意思生成装置100的利用方式进行说明。图12是包括意思生成装置100的对话系统的框图。该对话系统具有语音识别的功能,包括存在于云(cloud)上的服务器500以及智能手机等便携终端400。用户经由便携终端400,能够通过语音来与系统进行基于自然语言的对话。
便携终端400以及服务器500例如经由互联网等公共通信网络来连接。便携终端400是智能手机或者平板电脑等。
便携终端400具备麦克风401、信号处理部402、通信部403以及应答执行部404。麦克风401是将语音转换为电语音信号的设备,用于收集用户的语音。
信号处理部402判定从麦克风401输入的语音信号是否是噪声,在判定为并非噪音的情况下,将该语音信号输出给通信部403。
通信部403将被输入的语音信号转换为具有能够进行通信的格式的通信信号,将所获得的通信信号发送给服务器500。
应答执行部404将信号处理部402通过通信部403接收到的应答文显示于监视器。
服务器500具备意思生成装置100、通信部501、语音处理部502、解析部503以及应答生成部504。通信部501接收来自便携终端400的通信信号,从通信信号中取出语音信号,将取出的语音信号输出给语音处理部502。
语音处理部502通过对取出的语音信号进行解析,生成表示用户说出的语音的文本数据。
意思生成装置100例如是图1所示的意思生成装置100,处于已经结束了上述的学习处理的状态。意思生成装置100将通过语音处理部502生成的文本数据追加到说话文表124中,进行上述的意思生成处理,由此,将该文本数据的意思信息追加到意思信息表125中。
解析部503从意思生成装置100接收针对用户的说话内容的意思信息(概率值),判定是否为系统可理解的说话。而且,如果系统能够理解用户的说话内容,则解析部503将该说话内容交给应答生成部504。
应答生成部504生成与接收到的说话内容对应的应答文。通信部501将生成的应答文转换为具有能够进行通信的格式的通信信号,将所获得的通信信号发送给便携终端400。
如此,在图12所示的对话系统中,服务器500使用进行了上述的学习后的意思生成装置100,能够适当地理解用户所说的话,并进行应答。
以上,对实施方式涉及的意思生成装置进行了说明,但本公开不限定于该实施方式。
另外,上述实施方式涉及的意思生成装置所包含的各处理部典型地可以作为集成电路即LSI来实现。它们可以个别地形成为一个芯片,或者也可以包括一部分或全部而形成为一个芯片。
另外,集成电路化不限于LSI,也可以通过专用电路或通用处理器实现。可以利用能够在LSI制造后编程的FPGA(Field Programmable Gate Array:现场可编程门阵列)、或者能够重构LSI内部的电路单元的连接和/或设定的可重构处理器。
另外,本公开也可以作为通过意思生成装置执行的意思生成方法来实现。
另外,在上述各实施方式中,各构成要素既可以用专用的硬件构成,也可以通过执行适于各构成要素的软件程序来实现。各构成要素也可以通过CPU或者处理器等程序执行部将存储于硬盘或者半导体存储器等记录介质中的软件程序读出并执行来实现。
另外,框图中的功能模块的分割仅为一例,也可以将多个功能模块作为一个功能模块来实现,或将一个功能模块分割为多个,或将一部分功能移至其他功能模块。另外,也可以为,单一的硬件或者软件并行或者分时地处理具有类似功能的多个功能模块的功能。
另外,执行流程图中的各步骤的顺序是为了具体说明本公开而示例的,也可以是除上述以外的顺序。另外,上述步骤的一部分也可以与其他步骤同时(并行)执行。
以上,基于实施方式说明了一个或者多个技术方案涉及的意思生成装置,但本公开并不限定于该实施方式。只要不脱离本公开的宗旨,将本领域技术人员能够想到的各种变形应用于本实施方式和/或将不同的实施方式中的构成要素组合而构成的形态也可以包含在一个或者多个技术方案的范围内。
产业上的可利用性
本公开能够适用于意思生成装置,例如能够利用于通过基于语音或者文本形式的用户所说的话来进行应答从而完成用户任务的呼叫中心或者问诊对话等、面向任务的对话系统装置或者对话系统方式。

Claims (10)

1.一种意思生成方法,是意思生成装置中的意思生成方法,包括:
取得使可能成为说话文的第1文句的文本数据与表示所述第1文句的意思的意思信息相关联的第1意思训练数据,
取得使所述第1文句的文本数据与作为所述第1文句的同义转换文的第2文句的文本数据相关联的第1同义转换训练数据,
通过将所述第1意思训练数据和所述第1同义转换训练数据应用于共通的模型,学习包括所述说话文所包含的单词的重要度在内的、所述说话文与所述意思信息及所述同义转换文的关联,
将所述学习的结果作为学习结果信息进行存储。
2.根据权利要求1所述的意思生成方法,
所述意思生成方法还包括:
取得由用户说出的第3文句的文本数据,
基于所述学习结果信息,生成与所述第3文句对应的意思信息。
3.根据权利要求1或2所述的意思生成方法,
从积累有2个以上的意思训练数据的第1语料库中取得所述第1意思训练数据。
4.根据权利要求1至3中任一项所述的意思生成方法,
从积累有2个以上的同义转换训练数据的第2语料库中取得所述第1同义转换训练数据。
5.根据权利要求1至4中任一项所述的意思生成方法,
所述模型是神经网络模型。
6.根据权利要求5所述的意思生成方法,
通过在关联于所述第1文句的所述意思信息及所述第2文句、与使用所述模型算出的所述意思信息及所述第2文句相对于所述第1文句的后验概率之间进行误差反向传播学习,从而执行所述学习。
7.根据权利要求1所述的意思生成方法,
使用在对所述说话文与所述意思信息的关联的学习中获得的内部信息来进行对所述说话文与所述同义转换文的关联的学习。
8.根据权利要求7所述的意思生成方法,
所述模型是神经网络模型,
所述内部信息是所述神经网络模型中的各层间的权重。
9.一种意思生成装置,具备:
意思训练数据取得部,其取得使可能成为说话文的第1文句的文本数据与表示所述第1文句的意思的意思信息相关联的第1意思训练数据;
同义转换训练数据取得部,其取得使所述第1文句的文本数据与作为所述第1文句的同义转换文的第2文句的文本数据相关联的第1同义转换训练数据;
学习部,其通过将所述第1意思训练数据和所述第1同义转换训练数据应用于共通的模型,学习包括所述说话文所包含的单词的重要度在内的、所述说话文与所述意思信息及所述同义转换文的关联;以及
存储部,其将所述学习的结果作为学习结果信息进行存储。
10.一种程序,使计算机执行权利要求1所述的意思生成方法。
CN201710328057.8A 2016-06-17 2017-05-11 意思生成方法、意思生成装置以及程序 Pending CN107526720A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2016-120983 2016-06-17
JP2016120983 2016-06-17
JP2017-007869 2017-01-19
JP2017007869A JP6832501B2 (ja) 2016-06-17 2017-01-19 意味生成方法、意味生成装置及びプログラム

Publications (1)

Publication Number Publication Date
CN107526720A true CN107526720A (zh) 2017-12-29

Family

ID=59061825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710328057.8A Pending CN107526720A (zh) 2016-06-17 2017-05-11 意思生成方法、意思生成装置以及程序

Country Status (3)

Country Link
US (1) US10319368B2 (zh)
EP (1) EP3258390A1 (zh)
CN (1) CN107526720A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214365A1 (zh) * 2018-05-10 2019-11-14 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229111B1 (en) * 2016-02-03 2019-03-12 Google Llc Sentence compression using recurrent neural networks
CN110119507A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 词向量生成方法、装置以及设备
WO2019163247A1 (ja) * 2018-02-22 2019-08-29 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
US11182565B2 (en) * 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
CN110175323B (zh) * 2018-05-31 2022-05-13 腾讯科技(深圳)有限公司 消息摘要的生成方法和装置
JP7007616B2 (ja) * 2018-08-15 2022-01-24 日本電信電話株式会社 学習データ生成装置、学習データ生成方法およびプログラム
US10957320B2 (en) 2019-01-25 2021-03-23 International Business Machines Corporation End-of-turn detection in spoken dialogues
US11854535B1 (en) * 2019-03-26 2023-12-26 Amazon Technologies, Inc. Personalization for speech processing applications
KR102405867B1 (ko) * 2019-10-02 2022-06-08 (주)디앤아이파비스 인공지능 모델을 이용한 특허문서의 중요도 판단 방법, 장치 및 시스템
US20210174213A1 (en) * 2019-12-09 2021-06-10 Nec Laboratories America, Inc. Controlled text generation with supervised representation disentanglement and mutual information minimization
US11900070B2 (en) * 2020-02-03 2024-02-13 International Business Machines Corporation Producing explainable rules via deep learning
CN112364664B (zh) * 2020-11-19 2023-12-05 北京京东尚科信息技术有限公司 意图识别模型的训练及意图识别方法、装置、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
JP2011165087A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6178398B1 (en) * 1997-11-18 2001-01-23 Motorola, Inc. Method, device and system for noise-tolerant language understanding
JP5362651B2 (ja) 2010-06-07 2013-12-11 日本電信電話株式会社 重要語句抽出装置及び方法及びプログラム
KR102437689B1 (ko) * 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
US10169703B2 (en) * 2016-01-07 2019-01-01 International Business Machines Corporation System and method for analogy detection and analysis in a natural language question and answering system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
JP2011165087A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANPENG CHENG: "Syntax-Aware Multi-Sense Word Embeddings for Deep Compositional Models of Meaning", 《PROCEEDINGS OF THE 2015 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214365A1 (zh) * 2018-05-10 2019-11-14 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
US11900069B2 (en) 2018-05-10 2024-02-13 Tencent Technology (Shenzhen) Company Limited Translation model training method, sentence translation method, device, and storage medium

Also Published As

Publication number Publication date
US20170365252A1 (en) 2017-12-21
EP3258390A1 (en) 2017-12-20
US10319368B2 (en) 2019-06-11

Similar Documents

Publication Publication Date Title
CN107526720A (zh) 意思生成方法、意思生成装置以及程序
US11934791B2 (en) On-device projection neural networks for natural language understanding
US11741484B2 (en) Customer interaction and experience system using emotional-semantic computing
Clark et al. Simple and effective multi-paragraph reading comprehension
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN107545897A (zh) 对话行为推定方法、对话行为推定装置以及程序
CN104965819B (zh) 一种基于句法词向量的生物医学事件触发词识别方法
Mendels et al. Hybrid Acoustic-Lexical Deep Learning Approach for Deception Detection.
CN108170749A (zh) 基于人工智能的对话方法、装置及计算机可读介质
WO2020237869A1 (zh) 一种问题意图识别方法、装置、计算机设备及存储介质
WO2019083812A1 (en) GENERATION OF DOUBLE-SEQUENCE INFERENCES USING A NEURONAL NETWORK MODEL
KR101715118B1 (ko) 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
Nawi et al. Weight optimization in recurrent neural networks with hybrid metaheuristic Cuckoo search techniques for data classification
CN111400470A (zh) 问题处理方法、装置、计算机设备和存储介质
JP2015102806A (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
Gosztolya Using Fisher Vector and Bag-of-Audio-Words representations to identify Styrian dialects, sleepiness, baby & orca sounds
CN109800307A (zh) 产品评价的分析方法、装置、计算机设备及存储介质
JP2017228272A (ja) 意味生成方法、意味生成装置及びプログラム
WO2019220113A1 (en) Device and method for natural language processing
CN107679225A (zh) 一种基于关键词的回复生成方法
Deena et al. Semi-supervised adaptation of RNNLMs by fine-tuning with domain-specific auxiliary features
US20220067280A1 (en) Multi-token embedding and classifier for masked language models
Vlasenko et al. Fusion of acoustic and linguistic information using supervised autoencoder for improved emotion recognition
Pathuri et al. Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm
Zheng et al. Contrastive auto-encoder for phoneme recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171229

WD01 Invention patent application deemed withdrawn after publication