CN113302601A - 含义关系学习装置、含义关系学习方法及含义关系学习程序 - Google Patents

含义关系学习装置、含义关系学习方法及含义关系学习程序 Download PDF

Info

Publication number
CN113302601A
CN113302601A CN201980087410.5A CN201980087410A CN113302601A CN 113302601 A CN113302601 A CN 113302601A CN 201980087410 A CN201980087410 A CN 201980087410A CN 113302601 A CN113302601 A CN 113302601A
Authority
CN
China
Prior art keywords
learning
data
example data
negative
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980087410.5A
Other languages
English (en)
Inventor
内出隼人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN113302601A publication Critical patent/CN113302601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

含义关系学习装置(1)具备:负例数据生成部(12),其通过将构成多个正例数据对的语言数据组合而生成多个负例数据对;特征量提取部(13),其从分别构成负例数据对的语言数据中提取特征量;相似度计算部(14),其计算各个负例数据对的特征量之间的相似度;学习用负例数据生成部(15),其基于相似度,将多个负例数据对分类为预先决定的多个相似度范围,由此生成与多个相似度范围对应的多个学习用负例数据集;学习数据集选择部(17),其以按照基于多个相似度范围而预先决定的选择计划的顺序,选择多个学习用负例数据集中的任意的学习用负例数据集;以及学习处理部(18),其使用选择出的学习用负例数据集和多个正例数据对来进行机器学习处理。

Description

含义关系学习装置、含义关系学习方法及含义关系学习程序
技术领域
本发明涉及进行机器学习的含义关系学习装置、以及为了进行机器学习而使用的含义关系学习方法及含义关系学习程序。
背景技术
由于个人电脑及因特网的普及,用户能够访问的电子化数据的量增大。因此,谋求一种用于从大规模的电子化数据中有效地发现所希望的数据的技术。在自然语言处理的领域中,为了检索替换句(即,含义上等效的句子),使用如下的学习装置:预先通过手动而生成处于同义关系的文本对即正例和不处于同义关系的文本对即负例来作为示教数据,使用生成的示教数据,统计性地对文本间的含义关系进行机器学习。如果使用该机器学习的结果,则能够检索和估计与所输入的文本处于同义关系的文本。
例如,专利文献1提出了一种进行文中包含的谓语的同义判定处理的装置。该装置将相互具有相同含义的谓语(即,相互处于同义关系的文本例)的对作为正例,将相互具有不同含义的谓语(即,相互不处于同义关系的文本例)的对作为负例,将正例和负例作为示教数据进行机器学习处理,其结果是,取得用于同义判定处理的判定用模型。
现有技术文献
专利文献
专利文献1:日本特开2014-119988号公报
发明内容
发明要解决的问题
但是,在上述装置进行的机器学习处理所使用的负例中,未区分具有非常接近正例的含义的负例和具有非常远离正例的含义的负例。即,在负例的整体中,认为混合有具有非常接近正例的含义的负例和具有非常远离正例的含义的负例。因此,通过将这样的负例作为示教数据的机器学习处理,难以得到可实现良好的含义关系的判别的判别用模型。
本发明是为了解决上述现有技术的问题而完成的,其目的在于,提供一种能够进行可实现良好的含义关系的判别的机器学习处理的含义关系学习装置、以及为了进行可实现良好的含义关系的判别的机器学习处理而使用的含义关系学习方法及含义关系学习程序。
用于解决问题的手段
本发明的一方案的含义关系学习装置的特征在于,具备:负例数据生成部,其从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,所述负例数据生成部通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;特征量提取部,其从分别构成所述多个负例数据对的所述语言数据中提取特征量;相似度计算部,其计算所述多个负例数据对各自的所述特征量之间的相似度;学习用负例数据生成部,其基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;学习数据集选择部,其以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及学习处理部,其使用由所述学习数据集选择部选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。
本发明的一方案的含义关系学习方法的特征在于,具有:负例数据生成步骤,从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;提取步骤,从分别构成所述多个负例数据对的所述语言数据中提取特征量;计算步骤,计算所述多个负例数据对各自的所述特征量之间的相似度;学习用负例数据生成步骤,基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;选择步骤,以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及学习步骤,使用选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。
发明的效果
根据本发明,能够进行可实现良好的含义关系的判别的机器学习处理。
附图说明
图1是概要地示出本发明的实施方式1的含义关系学习装置的结构的功能框图。
图2是示出实施方式1的含义关系学习装置的硬件结构的例子的图。
图3是示出实施方式1的含义关系学习装置的动作的流程图。
图4是示出实施方式1中的负例数据生成部的动作的流程图。
图5是示出实施方式1中的特征量提取部的动作的流程图。
图6是示出实施方式1中的相似度计算部的动作的流程图。
图7是示出实施方式1中的学习用负例数据生成部的动作的流程图。
图8是示出实施方式1中的学习数据选择部的动作的流程图。
图9是示出实施方式1中的学习处理部的动作的流程图。
图10是概要地示出本发明的实施方式2的含义关系学习装置的结构的功能框图。
图11是示出实施方式2的含义关系学习装置的动作的流程图。
图12是示出实施方式2中的负例数据生成部的动作的流程图。
图13是示出实施方式2中的特征量提取部的动作的流程图。
图14是示出实施方式2中的相似度计算部的动作的流程图。
图15是示出实施方式2中的学习用负例数据生成部的动作的流程图。
具体实施方式
以下,参照附图对本发明的实施方式的含义关系学习装置、含义关系学习方法及含义关系学习程序进行说明。另外,以下的实施方式只不过是例子,在本发明的范围内能够进行各种变更。
实施方式的含义关系学习装置是能够设置于含义关系判别装置的学习装置,该含义关系判别装置具备进行含义关系的判别处理的含义关系判别部。实施方式的含义关系学习方法是用于取得在含义关系的判别处理中使用的含义关系判别用模型的学习方法。实施方式的含义关系学习程序是用于取得在含义关系的判别处理中使用的含义关系判别用模型的软件程序。
《1》实施方式1.
《1-1》实施方式1的结构.
图1是概要地示出本发明的实施方式1的含义关系学习装置1的结构的功能框图。如图1所示,含义关系学习装置1是能够实施实施方式1的含义关系学习方法的装置。如图1所示,含义关系学习装置1具备负例数据生成部12、特征量提取部13、相似度计算部14、学习用负例数据生成部15、学习数据集选择部17、以及学习处理部18。此外,含义关系学习装置1也可以具备正例数据存储部11和学习用负例数据存储部16。
正例数据存储部11存储有多个正例数据对(以下也称为“正例”。)A11。多个正例数据对分别由与相互处于预先决定的含义关系的语言相关的数据(以下也称为“语言数据”。)构成。在实施方式1中,预先决定的含义关系为同义关系。相互处于同义关系的语言数据对例如是相互处于同义关系的文本对。这里,文本包含单词及句子。另外,预先决定的含义关系不限于同义关系。
负例数据生成部12取得存储于正例数据存储部11的多个正例数据对A11。负例数据生成部12通过将分别构成多个正例数据对A11的语言数据组合而生成多个负例数据对(以下也称为“负例”。)A12。多个负例数据对A12分别由相互不处于预先决定的含义关系的语言数据构成。在实施方式1中,多个负例数据对A12分别由相互不处于同义关系的语言数据构成。相互不处于同义关系的语言数据对例如是相互不处于同义关系的文本对。这里,文本包含单词及句子。
特征量提取部13从分别构成由负例数据生成部12生成的多个负例数据对A12的语言数据中提取特征量A13,即,计算特征量A13。作为特征量,能够利用适合于所利用的相似度和语言数据的性质等的特征量。例如,在构成负例数据对的语言数据是文本数据的情况下,作为用于计算文本间的相似度的特征量,能够使用文本的句子长度、文本的文字种类、文本的词素解析的结果、文本的依存解析的结果、从文本转换的多维向量等中的1个以上。将文本转换成多维向量的方法是公知的,例如能够使用非专利文献1所记载的方法。
非专利文献1:Tomas Mikolov,外3名,“Efficient Estimation of WordRepresentations in Vector Space”,ICLR(International Conference on LearningRepresentations)2013
相似度计算部14计算多个负例数据对A12各自的特征量A13之间的相似度。相似度计算部14将计算出的相似度赋予给与该相似度对应的负例数据对A12,生成被赋予了相似度的负例数据对A14。
作为相似度,能够使用事先根据语言数据的性质而定义的相似度。例如,在构成负例数据对的语言数据是文本数据的情况下,能够使用文本间的句子长度的差异、文本的编辑距离(即,莱文斯坦距离)、对文本进行词素解析得到的单词串的重复程度、对文本进行依存解析后作为结果得到的短语单位的重复程度、对文本进行依存解析后作为结果得到的依存关系的重复程度、从文本转换的多维向量的欧几里得距离或者余弦相似度等中的1个以上。
例如,文本间的句子长度的差异越小,则相似度越高。此外,文本的编辑距离越短,则相似度越高。此外,对文本进行词素解析得到的单词串的重复程度越大,则相似度越高。此外,对文本进行依存解析作为结果得到的短语单位的重复程度越大,则相似度越高。此外,对文本进行依存解析作为结果得到的依存关系的重复程度越大,则相似度越高。此外,从文本转换的多维向量的欧几里得距离越短,则相似度越高。将文本转换成多维向量的方法是公知的,例如能够使用非专利文献1所记载的方法。此外,余弦相似度在向量空间模型中对文件彼此进行比较时使用,其计算方法是公知的。此外,也可以将通过事先准备的学习装置而输出的似然度等判别结果用作相似度。
学习用负例数据生成部15基于被赋予了由相似度计算部14计算出的相似度的负例数据对A14,将多个负例数据对A14分类为预先决定的多个相似度范围,由此,生成与多个相似度范围对应的多个学习用负例数据集A15。多个学习用负例数据集A15分别包含被赋予了相似度的多个负例数据对A14中的1个以上的负例数据对。
例如,在负例数据对是文本对且相似度是向量化的文本间的欧几里得距离的情况下,学习用负例数据生成部15基于由相似度计算部14计算出的欧几里得距离对由负例数据生成部12生成的文本进行分类,由此,生成按照由相似度计算部14计算出的每个欧几里得距离的范围而分类的学习用负例数据集A15。这里,作为相似度范围的欧几里得距离d1的范围例如是,
0.1≦d1<0.3的范围即第1相似度范围,
0.3≦d1<0.5的范围即第2相似度范围,及
0.5≦d1≦0.7的范围即第3相似度范围。
该例是将负例数据对按照相似度范围分类为3个数据集的情况下的例子。另外,所生成的学习用负例数据集的相似度范围的宽广度、相似度范围的数量不限于上述的例子。
学习用负例数据存储部16接受由学习用负例数据生成部15生成的与多个相似度范围对应的多个学习用负例数据集A15,存储为多个学习用负例数据集A16。
学习数据集选择部17以按照基于多个相似度范围而预先决定的选择计划的顺序,选择存储于学习用负例数据存储部16的多个学习用负例数据集A16中的任意的学习用负例数据集A17。
具体而言,学习数据集选择部17从相似度范围的相似度低的学习用负例数据集开始依次向学习处理部18输出,执行学习处理部18中的学习处理。在1次学习处理结束之后,将相似度次高的学习用负例数据集向学习处理部18输出,按照同样的顺序重复进行处理,直至学习用负例数据集的选择计划结束为止。
换言之,学习数据集选择部17将选择计划决定为,首先将与多个相似度范围中的第1低(即,最低)的值的相似度范围对应的学习用负例数据集选择为第1个,接着,将与多个相似度范围中的第2低的值的相似度范围对应的学习用负例数据集选择为第2个。即,学习数据集选择部17将选择计划决定为,当n为1以上的整数时,将与多个相似度范围中的第n低的值的相似度范围对应的学习用负例数据集选择为第n个。
这样,从相似度低的学习用负例数据集开始学习,渐渐学习相似度高的学习用负例数据集,由此,含义关系学习装置能够较早地收敛于较好的解。此外,能够提高由含义关系学习装置得到的含义关系判别用模型的泛化性能。另外,在学习用负例数据集的选择计划中,也可以设定任意的学习次数。此外,为了使含义关系学习装置的精度成为最高,也可以使用基于贝叶斯最佳化等的最佳化的结果来决定学习用负例数据集的选择计划。
即,在电子化数据的含义关系判别用的学习中,事先准备考虑了相似度的负例数据对,先进行难易度低的简单问题设定(例如,使用了正例数据对和相似度低的负例数据对的问题)的学习,之后进行难易度高的问题设定(例如,正例数据对和相似度高的负例数据对的问题)的学习。这样,含义关系学习装置1不仅能够较早地收敛于较好的解,也能够提高具备含义关系学习装置1的含义关系判别装置的泛化性能。
学习处理部18使用由学习数据集选择部17选择出的学习用负例数据集A17和存储于正例数据存储部11的多个正例数据对A11来进行机器学习处理。在机器学习处理中,能够使用公知的学习算法。作为能够使用的算法,具有SVM(Support Vector Machine:支持向量机)、神经网络或者决策树等。
图2是示出实施方式1的含义关系学习装置1的硬件结构的例子的图。含义关系学习装置1例如具备:作为存储装置的存储器102,其存储作为软件的程序,即实施方式1的含义关系学习程序;以及作为信息处理部的处理器101,其执行存储于存储器102的程序。含义关系学习装置1例如是计算机。实施方式1的含义关系学习程序从存储信息的存储介质中经由读取装置(未图示)或者经由能够与因特网等连接的通信接口(未图示)而被存储于存储器102。此外,含义关系学习装置1也可以具有鼠标103及键盘104等这样的作为用户操作部的输入装置、以及显示图像的显示装置105及输出声音的声音输出部(未图示)等这样的输出装置。此外,含义关系学习装置1也可以具有数据库等存储各种信息的辅助存储装置106。辅助存储装置106并非必须存在于含义关系学习装置1的内部,也可以是经由通信接口而存在于云端上的存储装置。
图1所示的负例数据生成部12、特征量提取部13、相似度计算部14、学习用负例数据生成部15、学习数据集选择部17及学习处理部18能够通过执行存储于存储器102的程序的处理器101来实现。此外,图1所示的正例数据存储部11及学习用负例数据存储部16也可以是辅助存储装置106的一部分。
《1-2》实施方式1的动作.
图3是示出实施方式1的含义关系学习装置1的动作的流程图。此外,图4是示出实施方式1中的负例数据生成部12的动作的流程图。首先,负例数据生成部12通过从正例数据存储部11取得多个正例数据对A11,取得分别构成多个正例数据对A11的语言数据(步骤S11,步骤S111)。
接着,负例数据生成部12通过将从正例数据存储部11取得的语言数据组合而生成多个负例数据对A12(步骤S12、步骤S112)。多个负例数据对A12分别由相互不处于同义关系的语言数据构成。即,负例数据生成部12根据正例数据对A11以外的语言数据的组合而生成多个负例数据对A12。优选的是,负例数据生成部12根据正例数据对A11以外的语言数据的全部组合而生成多个负例数据对A12。负例数据生成部12将负例数据对A12向特征量提取部13及相似度计算部14输出(步骤S113)。
图5是示出实施方式1中的特征量提取部13的动作的流程图。特征量提取部13取得多个负例数据对A12,从分别构成多个负例数据对A12的语言数据中提取特征量A13,即,计算特征量A13(步骤S13、步骤S131、S132)。特征量提取部13将特征量A13向相似度计算部14输出(步骤S133)。
图6是示出实施方式1中的相似度计算部14的动作的流程图。相似度计算部14取得多个负例数据对A12及多个特征量A13,计算多个负例数据对A12各自的特征量A13之间的相似度(步骤S14、步骤S141、S142)。相似度计算部14将相似度赋予给负例数据对,将被赋予了相似度的负例数据对A14向学习用负例数据生成部15输出(步骤S143)。
图7是示出实施方式1中的学习用负例数据生成部15的动作的流程图。学习用负例数据生成部15取得被赋予了相似度的多个负例数据对A14,将多个负例数据对A14分类为预先决定的多个相似度范围,由此,生成与多个相似度范围对应的多个学习用负例数据集A15(步骤S15、步骤S151、S152)。即,多个学习用负例数据集A15分别是包含多个负例数据对A12中的1个以上的负例数据对的数据的组。与多个相似度范围对应的多个学习用负例数据集A15存储于学习用负例数据存储部16(步骤S153)。
图8是示出实施方式1中的学习数据集选择部17的动作的流程图。学习数据集选择部17以按照基于多个相似度范围而预先决定的选择计划的顺序,选择存储于学习用负例数据存储部16的多个学习用负例数据集A16中的任意的学习用负例数据集A17(步骤S16,步骤S161)。将选择出的学习用负例数据集A17向学习处理部18输出(步骤S162)。
图9是示出实施方式1中的学习处理部18的动作的流程图。学习处理部18使用选择出的学习用负例数据集A17和存储于正例数据存储部11的多个正例数据对A11来进行机器学习处理(步骤S17、步骤S171)。重复进行图3中的步骤S16及S17的处理,直至学习用负例数据集的选择计划结束为止(步骤S18)。
《1-3》实施方式1的效果.
如以上所说明的那样,如果使用实施方式1的含义关系学习装置1、含义关系学习方法或者含义关系学习程序,则能够进行可实现良好的含义关系的判别的机器学习处理。
具体而言,事先准备考虑了相似度的负例数据对A14,最开始进行使用正例数据对和相似度低的负例数据对的学习,接着,进行使用正例数据对和相似度次低的负例数据对的学习。即,渐渐向难易度高的问题设定(即,使用了正例数据对和相似度高的负例数据对的问题设定)推进学习。这样,不仅能够较早地收敛于较好的解,还能够提高泛化性能。
《2》实施方式2.
《2-1》实施方式2的结构.
图10是概要地示出本发明的实施方式2的含义关系学习装置2的结构的功能框图。含义关系学习装置2是能够实施实施方式2的含义关系学习方法的装置。如图10所示,含义关系学习装置2具备负例数据生成部22、特征量提取部23、相似度计算部24、学习用负例数据生成部25、学习数据集选择部27以及学习处理部28。此外,含义关系学习装置2也可以具备正例数据存储部21和学习用负例数据存储部26。以下,以与实施方式1的不同之处为中心来说明实施方式2。
正例数据存储部21存储有多个正例数据对A21。多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成。在实施方式2中,预先决定的含义关系是提问句和回答句的关系。相互处于预先决定的含义关系的语言数据例如是提问句数据和回答句数据。另外,预先决定的含义关系不限于提问句和回答句的关系。
负例数据生成部22取得存储于正例数据存储部21的多个正例数据对A21。负例数据生成部22通过将分别构成多个正例数据对A21的语言数据组合而生成多个负例数据对A22。多个负例数据对A22分别由相互不处于预先决定的含义关系的语言数据构成。在实施方式2中,多个负例数据对A22分别由相互不处于提问句和回答句的关系的语言数据构成。负例数据对A22例如是由提问句和提问句构成的数据对、以及由回答句和回答句构成的数据对。
特征量提取部23从分别构成由负例数据生成部22生成的多个负例数据对A22的语言数据中提取特征量A23,即,计算特征量A23。与实施方式1的情况同样,作为特征量,能够利用适合于所利用的相似度和语言数据的性质等的特征量。
相似度计算部24计算多个负例数据对A22各自的特征量A23之间的相似度。相似度计算部24将计算出的相似度赋予给与该相似度对应的负例数据对A22,生成被赋予了相似度的负例数据对A24。作为相似度,能够使用与实施方式1的情况同样的相似度。
学习用负例数据生成部25利用被赋予了由相似度计算部24生成的相似度的负例数据对A24所包含的提问句数据来置换构成存储于正例数据存储部21的正例数据对A21的提问句数据,或者,利用被赋予了由相似度计算部24生成的相似度的负例数据对A24所包含的回答句数据来置换构成存储于正例数据存储部21的正例数据对A21的回答句数据,由此,生成多个学习用负例数据对。学习用负例数据生成部25基于由相似度计算部24计算出的相似度,将多个学习用负例数据对分类为预先决定的多个相似度范围,由此,生成与多个相似度范围对应的多个学习用负例数据集A25。多个学习用负例数据集A25分别包含被赋予了相似度的多个学习用负例数据对A24中的1个以上的负例数据对。
例如,说明如下情况:学习用负例数据生成部25根据由“提问句数据D10”和“回答句数据D20”构成的正例数据对,使用由“提问句数据D10”和“提问句数据D11”构成的负例数据对,生成由“提问句数据D11”和“回答句数据D20”构成的学习用负例数据对。在该情况下,学习用负例数据生成部25用负例数据对的“提问句数据D11”置换正例数据对的“提问句数据D10”,由此,生成由“提问句数据D11”和“回答句数据D20”构成的学习用负例数据对。此时,向生成的学习用负例数据对赋予向由“提问句数据D10”和“提问句数据D11”构成的负例数据对赋予的相似度。
此外,例如说明如下情况:学习用负例数据生成部25根据由“提问句数据D10”和“回答句数据D20”构成的正例数据对,使用由“回答句数据D20”和“回答句数据D21”构成的负例数据对,生成由“提问句数据D10”和“回答句数据D21”构成的学习用负例数据对。在该情况下,学习用负例数据生成部25用负例数据对的“回答句数据D21”置换正例数据对的“回答句数据D20”,由此,生成由“提问句数据D10”和“回答句数据D21”构成的学习用负例数据对。此时,向生成的学习用负例数据对赋予向由“回答句数据D20”和“回答句数据D21”构成的负例数据对赋予的相似度。
例如,针对构成由负例数据生成部22生成的负例数据对的“提问句A”与“提问句B”之间的相似度进行说明。相似度计算部24将“提问句A”的文本数据和“提问句B”的文本数据分别转换成多维向量,基于多维向量计算文本间的欧几里得距离d2,将通过该计算得到的欧几里得距离d2设为相似度。通过这样进行处理,生成被赋予了相似度的由“提问句”和“回答句”构成的学习用负例数据对。
学习用负例数据生成部25基于计算出的欧几里得距离d2,生成按照每个欧几里得距离d2的范围对由“提问句”和“回答句”构成的学习用负例数据对进行分类而得到的学习用负例数据集A25。这里,作为相似度范围的欧几里得距离d2的范围例如是,
0.1≦d2<0.3的范围即第1相似度范围,
0.3≦d2<0.5的范围即第2相似度范围,及
0.5≦d2≦0.7的范围即第3相似度范围。
该例是按照不同的相似度范围将学习用负例数据对分类为3个数据集的情况下的例子。另外,所生成的学习用负例数据集的相似度范围的大小、相似度范围的数量不限于上述的例子。
学习用负例数据存储部26接受由学习用负例数据生成部25生成的与多个相似度范围对应的多个学习用负例数据集A25,存储为多个学习用负例数据集A26。
学习数据集选择部27以按照基于多个相似度范围而预先决定的选择计划的顺序,选择存储于学习用负例数据存储部26的多个学习用负例数据集A26中的任意的学习用负例数据集A27。
具体而言,学习数据集选择部27从相似度范围的相似度低的学习用负例数据集开始依次向学习处理部28输出,执行学习处理部28中的学习处理。在1次学习处理结束之后,将相似度次高的学习用负例数据集向学习处理部28输出,按照同样的顺序重复进行处理,直至学习用负例数据集的选择计划结束为止。
换言之,学习数据集选择部27将选择计划决定为,首先将与多个相似度范围中的第1低(即,最低)的值的相似度范围对应的学习用负例数据集选择为第1个,接着,将与多个相似度范围中的第2低的值的相似度范围对应的学习用负例数据集选择为第2个。即,学习数据集选择部17将选择计划决定为,当n为1以上的整数时,将与多个相似度范围中的第n低的值的相似度范围对应的学习用负例数据集选择为第n个。
这样,从相似度低的学习用负例数据集开始学习,渐渐学习相似度高的学习用负例数据集,由此,含义关系学习装置2能够较早地收敛于较好的解。此外,能够提高由含义关系学习装置2得到的含义关系判别用模型的泛化性能。另外,在学习用负例数据集的选择计划中,也可以设定任意的学习次数。此外,为了使含义关系学习装置2的精度成为最高,也可以使用基于贝叶斯最佳化等的最佳化的结果来决定学习用负例数据集的选择计划。
即,在电子化数据的含义关系判别用的学习中,事先准备考虑了相似度的学习用负例数据对,先进行难易度低的简单问题设定(例如,使用了正例数据对和相似度低的学习用负例数据对的问题)的学习,之后进行难易度高的问题设定(例如,正例数据对和相似度高的学习用负例数据对的问题)的学习。这样,含义关系学习装置2不仅能够较早地收敛于较好的解,也能够提高具备含义关系学习装置2的含义关系判别装置的泛化性能。
学习处理部28使用由学习数据集选择部27选择出的学习用负例数据集A27和存储于正例数据存储部21的多个正例数据对A21来进行机器学习处理。学习处理部28的功能与实施方式1中的学习处理部18的功能相同。
此外,实施方式2的含义关系学习装置2的硬件结构与图2所示的硬件结构相同。
《2-2》实施方式2的动作.
图11是示出实施方式2的含义关系学习装置2的动作的流程图。此外,图12是示出实施方式2中的负例数据生成部22的动作的流程图。首先,负例数据生成部22从正例数据存储部21取得多个正例数据对A21,由此,取得分别构成多个正例数据对A21的语言数据,即提问句数据和回答句数据(步骤S21、步骤S211)。
接着,负例数据生成部22通过将从正例数据存储部21取得的提问句数据彼此组合以及将回答句彼此组合,生成多个负例数据对A22(步骤S22、步骤S212、S213)。多个负例数据对A22分别由不处于预先决定的含义关系的语言数据的对构成。即,负例数据生成部22根据正例数据对A21以外的语言数据的组合而生成多个负例数据对A22。负例数据生成部22将负例数据对A22向特征量提取部23及相似度计算部24输出(步骤S214)。
图13是示出实施方式2中的特征量提取部23的动作的流程图。特征量提取部23取得多个负例数据对A22,从分别构成多个负例数据对A22的语言数据中提取特征量A23,即,计算特征量A23(步骤S23、步骤S231、S232)。特征量提取部23将特征量A23向相似度计算部14输出(步骤S233)。
图14是示出实施方式2中的相似度计算部24的动作的流程图。相似度计算部24取得多个负例数据对A22及多个特征量A23,计算多个负例数据对A22各自的特征量A23之间的相似度(步骤S24、步骤S241、S242)。相似度计算部14将相似度赋予给负例数据对,将被赋予了相似度的负例数据对A24向学习用负例数据生成部25输出(步骤S24、步骤S242、S243)。
图15是示出实施方式2中的学习用负例数据生成部25的动作的流程图。学习用负例数据生成部25基于相似度,将根据多个负例数据对A24和多个正例数据对A11而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此,生成多个学习用负例数据集A25(步骤S15、步骤S151、S152)。即,多个学习用负例数据集A15分别是包含多个负例数据对A12中的1个以上的负例数据对的数据的组。与多个相似度范围对应的多个学习用负例数据集A15存储于学习用负例数据存储部16(步骤S153)。
学习数据集选择部27及学习处理部28的动作与实施方式1中的学习数据集选择部17及学习处理部18相同。
《2-3》实施方式2的效果.
如以上所说明的那样,如果使用实施方式2的含义关系学习装置2、含义关系学习方法或含义关系学习程序,则能够进行可实现良好的含义关系的判别的机器学习处理。
具体而言,事先准备考虑了相似度的负例数据对A24,最开始进行使用正例数据对和相似度低的学习用负例数据对集的学习,接着,进行使用正例数据对和相似度次低的学习用负例数据对的学习。即,渐渐向难易度高的问题设定(即,使用了正例数据对和相似度高的负例数据对的问题设定)推进学习。这样,不仅能够较早地收敛于较好的解,还能够提高泛化性能。
标号说明
1、2含义关系学习装置,11、21正例数据存储部,12、22负例数据生成部,13、23特征量提取部,14、24相似度计算部,15、25学习用负例数据生成部,16、26学习用负例数据存储部,17、27学习数据集选择部,18、28学习处理部。

Claims (11)

1.一种含义关系学习装置,其特征在于,
所述含义关系学习装置具备:
负例数据生成部,其从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,所述负例数据生成部通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;
特征量提取部,其从分别构成所述多个负例数据对的所述语言数据中提取特征量;
相似度计算部,其计算所述多个负例数据对各自的所述特征量之间的相似度;
学习用负例数据生成部,其基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;
学习数据集选择部,其以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及
学习处理部,其使用由所述学习数据集选择部选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。
2.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是相互处于同义关系的语言数据,
不处于所述预先决定的含义关系的所述语言数据是相互不处于同义关系的语言数据,
所述学习用负例数据生成部基于所述相似度,将所述多个负例数据对分类为预先决定的多个相似度范围,由此生成所述多个学习用负例数据集。
3.根据权利要求2所述的含义关系学习装置,其特征在于,
所述学习数据集选择部将所述选择计划决定为,当设n为1以上的整数时,将与所述多个相似度范围中的第n低的值的相似度范围对应的学习用负例数据集选择为第n个。
4.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是表示提问句的语言数据和表示回答句的语言数据,
不处于所述预先决定的含义关系的所述语言数据是表示提问句的第1语言数据和表示提问句的第2语言数据、或者表示回答句的第3语言数据和表示回答句的第4语言数据,
所述学习用负例数据生成部基于所述相似度,将根据所述多个负例数据对和所述多个正例数据对生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此,生成所述多个学习用负例数据集。
5.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是表示提问句的语言数据和表示回答句的语言数据,
不处于所述预先决定的含义关系的所述语言数据是表示提问句的第1语言数据和表示提问句的第2语言数据、或者表示回答句的第3语言数据和表示回答句的第4语言数据,
所述学习用负例数据生成部通过利用所述多个负例数据对中的任意的负例数据对的所述第1语言数据或所述第2语言数据来置换所述多个正例数据对各自的提问句数据,或者利用所述多个负例数据对中的任意的负例数据对的所述第3语言数据或所述第4语言数据来置换所述多个正例数据对各自的回答句数据,从而将生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此,生成所述多个学习用负例数据集。
6.根据权利要求4或5所述的含义关系学习装置,其特征在于,
所述学习数据集选择部将所述选择计划决定为,当设n为1以上的整数时,将与所述多个相似度范围中的第n低的值的相似度范围对应的学习用负例数据集选择为第n个。
7.根据权利要求1至6中的任意一项所述的含义关系学习装置,其特征在于,
所述含义关系学习装置还具备存储有所述多个正例数据对的所述正例数据存储部。
8.根据权利要求1至7中的任意一项所述的含义关系学习装置,其特征在于,
所述含义关系学习装置还具备学习用负例数据存储部,该学习用负例数据存储部存储由所述学习用负例数据生成部生成的所述多个学习用负例数据集。
9.根据权利要求1至8中的任意一项所述的含义关系学习装置,其特征在于,
所述含义关系学习装置还具备存储部,该存储部存储由所述学习处理部进行的所述机器学习处理的结果。
10.一种含义关系学习方法,其特征在于,
所述含义关系学习方法具有:
负例数据生成步骤,从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;
提取步骤,从分别构成所述多个负例数据对的所述语言数据中提取特征量;
计算步骤,计算所述多个负例数据对各自的所述特征量之间的相似度;
学习用负例数据生成步骤,基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;
选择步骤,以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及
学习步骤,使用选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。
11.一种含义关系学习程序,其特征在于,
所述含义关系学习程序使计算机执行如下处理:
负例数据生成处理,从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;
提取处理,从分别构成所述多个负例数据对的所述语言数据中提取特征量;
计算处理,计算所述多个负例数据对各自的所述特征量之间的相似度;
学习用负例数据生成处理,基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;
选择处理,以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及
学习处理,使用选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。
CN201980087410.5A 2019-01-08 2019-01-08 含义关系学习装置、含义关系学习方法及含义关系学习程序 Pending CN113302601A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/000173 WO2020144736A1 (ja) 2019-01-08 2019-01-08 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム

Publications (1)

Publication Number Publication Date
CN113302601A true CN113302601A (zh) 2021-08-24

Family

ID=71521530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980087410.5A Pending CN113302601A (zh) 2019-01-08 2019-01-08 含义关系学习装置、含义关系学习方法及含义关系学习程序

Country Status (6)

Country Link
US (1) US20210312333A1 (zh)
JP (1) JP6899973B2 (zh)
KR (1) KR102400689B1 (zh)
CN (1) CN113302601A (zh)
DE (1) DE112019006005T5 (zh)
WO (1) WO2020144736A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256849B (zh) * 2020-10-20 2024-02-13 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质
JP7190479B2 (ja) * 2020-12-28 2022-12-15 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014119988A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> 同義判定装置、同義学習装置、及びプログラム
CN104137102A (zh) * 2012-02-23 2014-11-05 独立行政法人情报通信研究机构 非事实型询问应答系统以及计算机程序
EP2953062A1 (en) * 2013-02-01 2015-12-09 Fujitsu Limited Learning method, image processing device and learning program
JP2017010249A (ja) * 2015-06-22 2017-01-12 日本電信電話株式会社 パラメタ学習装置、文類似度算出装置、方法、及びプログラム
CN107949841A (zh) * 2015-08-31 2018-04-20 国立研究开发法人情报通信研究机构 提问应答系统的训练装置以及该训练装置用的计算机程序
CN108153853A (zh) * 2017-12-22 2018-06-12 齐鲁工业大学 基于Wikipedia链接结构的中文概念向量生成方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4838272B2 (ja) * 2008-01-30 2011-12-14 日本電信電話株式会社 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体
JP5447862B2 (ja) * 2008-04-03 2014-03-19 日本電気株式会社 単語分類システム、方法およびプログラム
JP5379813B2 (ja) * 2011-01-07 2013-12-25 日本電信電話株式会社 データ抽出装置、データ抽出方法、及びプログラム
JP5682448B2 (ja) * 2011-05-20 2015-03-11 日本電気株式会社 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
JP5431532B2 (ja) * 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム
JP5976037B2 (ja) * 2014-05-26 2016-08-23 日本電信電話株式会社 モデル学習装置、ランキング装置、方法、及びプログラム
JP6558863B2 (ja) * 2016-08-09 2019-08-14 日本電信電話株式会社 モデル作成装置、推定装置、方法、及びプログラム
JP6440035B2 (ja) * 2016-08-26 2018-12-19 井関農機株式会社 コンバイン

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104137102A (zh) * 2012-02-23 2014-11-05 独立行政法人情报通信研究机构 非事实型询问应答系统以及计算机程序
JP2014119988A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> 同義判定装置、同義学習装置、及びプログラム
EP2953062A1 (en) * 2013-02-01 2015-12-09 Fujitsu Limited Learning method, image processing device and learning program
JP2017010249A (ja) * 2015-06-22 2017-01-12 日本電信電話株式会社 パラメタ学習装置、文類似度算出装置、方法、及びプログラム
CN107949841A (zh) * 2015-08-31 2018-04-20 国立研究开发法人情报通信研究机构 提问应答系统的训练装置以及该训练装置用的计算机程序
CN108153853A (zh) * 2017-12-22 2018-06-12 齐鲁工业大学 基于Wikipedia链接结构的中文概念向量生成方法和装置

Also Published As

Publication number Publication date
JP6899973B2 (ja) 2021-07-07
DE112019006005T5 (de) 2021-09-02
JPWO2020144736A1 (ja) 2021-02-18
KR102400689B1 (ko) 2022-05-20
KR20210088725A (ko) 2021-07-14
WO2020144736A1 (ja) 2020-07-16
US20210312333A1 (en) 2021-10-07

Similar Documents

Publication Publication Date Title
Rathi et al. Sentiment analysis of tweets using machine learning approach
CN107949841B (zh) 提问应答系统的训练装置以及存储介质
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
Sikdar et al. MODE: multiobjective differential evolution for feature selection and classifier ensemble
CN109508374B (zh) 基于遗传算法的文本数据半监督聚类方法
Varela et al. Selecting syntactic attributes for authorship attribution
JP2019082841A (ja) 生成プログラム、生成方法及び生成装置
Dalip et al. Quality assessment of collaborative content with minimal information
US20210312333A1 (en) Semantic relationship learning device, semantic relationship learning method, and storage medium storing semantic relationship learning program
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
Greensmith et al. An artificial immune system approach to semantic document classification
Chattopadhyay et al. Automatic selection of binarization method for robust OCR
Elgeldawi et al. Hyperparameter Tuning for Machine Learning Algorithms Used for Arabic Sentiment Analysis. Informatics 2021, 8, 79
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
CN117290478A (zh) 一种知识图谱问答方法、装置、设备和存储介质
Shah et al. A hybrid approach of text summarization using latent semantic analysis and deep learning
WO2023155304A1 (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
Sivakumar et al. A hybrid text classification approach using KNN and SVM
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
Suresh An innovative and efficient method for Twitter sentiment analysis
JP5623344B2 (ja) 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法
Nair et al. Study of machine learning techniques for sentiment analysis
Sachidananda et al. Global selection of contrastive batches via optimization on sample permutations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination