CN115443465A - 学习数据生成装置、方法以及程序 - Google Patents
学习数据生成装置、方法以及程序 Download PDFInfo
- Publication number
- CN115443465A CN115443465A CN202080099932.XA CN202080099932A CN115443465A CN 115443465 A CN115443465 A CN 115443465A CN 202080099932 A CN202080099932 A CN 202080099932A CN 115443465 A CN115443465 A CN 115443465A
- Authority
- CN
- China
- Prior art keywords
- expression
- sentence
- learning data
- data generation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
学习数据生成装置(1)具有:短语提取部(14),其从输入语句中提取原因表达和结果表达;以及短语变更部(15、15a、15b),其通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
Description
技术领域
本发明涉及学习数据生成装置、学习数据生成方法以及学习数据生成程序。
背景技术
存在自动地获得对语句中包含的因果关系进行说明的表达(称作“因果关系表达”)的技术。获得因果关系表达的技术大致有2种。第1技术是以使用特定的关键词或模板来获得因果关系表达的技术为代表的、不使用监督数据的技术。例如,使用了“为此”或“因此”这样的暗示因果关系表达存在的线索表达的技术相当于该技术。第2技术是以收集包含因果关系表达的句子和不包含因果关系表达的句子并进行使用了机器学习的语句分类的技术为代表的、使用监督数据的技术。例如,使用输入语句和在输入语句的何处存在原因或结果的标签,通过以Conditional Random Field(CRF:条件随机场)为代表的序列标注来估计语句的因果关系部位的技术相当于该技术。这2种技术与其说是矛盾的,不如说处于互补的关系。即,进行如下这样的利用:使用利用关键词或模板等自动地收集到的监督数据,通过机器学习获得因果关系表达的估计模型。
作为使用关键词或模板等收集的监督数据,需要收集2种数据。第1数据是正例。在自动地获得因果关系表达的技术中,包含因果关系表达的语句、或者在语句中的某个部位标注为有原因或结果的语句为正例。第2数据是反例。在自动地获得因果关系表达的技术中,不包含因果关系表达的语句、或者在语句中的某个部位标注为没有原因或结果的语句为反例。
专利文献1提出了如下技术:将使用监督数据进行学习而得到的因果关系表达的估计模型用于估计短语间的关系性,该监督数据是使用关键词或模板等自动地收集到的。在专利文献1中,在获得正例时,使用暗示因果关系表达存在的线索表达。例如,如果是“因为下雨地面被淋湿。”这样的句子,则使用“因为”这样的线索表达,获得原因表达(“下雨”)、结果表达(“地面被淋湿”)和线索表达(“因为”)。另一方面,在获得反例时,随机地置换通过正例获得的要素中的原因表达或结果表达的要素。例如,在获得了原因表达(“下雨”)和结果表达(“地面被淋湿”)的情况下,作为反例,获得原因表达(“下雨”)和随机置换后的结果表达(“从梯子上掉下”)。这样,在专利文献1中,正例和反例都能够自动地获得。
现有技术文献
专利文献
专利文献1:日本特开2019-153093号公报
发明内容
发明要解决的课题
专利文献1记载的反例的获得方法能够通过随机地置换通过正例获得的要素中的原因或结果的要素来进行收集,因此简便。但是,通过该方法获得的反例对获得的事例的恰当性的研究不充分,因此有可能获得不是反例的数据或作为日语不恰当的数据作为反例。例如,考虑如下情况:在作为正例得到原因表达(“下雨”)和结果表达(“地面被淋湿”)的状况下,随机地调换结果表达的要素的结果是,生成了“农作物增加”这样的事例。在专利文献1中,获得“因为下雨农作物增加。”作为反例。另一方面,在从人眼观察的情况下,可认为获得的结果表达具有因果关系,因此不能说是恰当的反例。这样,在专利文献1记载的反例的获得方法中,存在有可能获得不恰当的事例作为反例的问题。
本发明正是为了解决上述课题而完成的,其目的在于抑制不恰当的反例的生成。
用于解决课题的手段
本发明的学习数据生成装置的特征在于,具有:短语提取部,其从输入语句中提取原因表达和结果表达;以及短语变更部,其通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
本发明的学习数据生成方法是学习数据生成装置执行的方法,其特征在于,具有以下步骤:从输入语句中提取原因表达和结果表达;以及通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
发明效果
根据本发明,能够抑制不恰当的反例的生成。
附图说明
图1是概略地表示实施方式1的学习数据生成装置的结构的功能框图。
图2是表示实施方式1的学习数据生成装置的硬件结构的例子的图。
图3是表示实施方式1的学习数据生成装置的动作的流程图。
图4是概略地表示实施方式2的学习数据生成装置的结构的功能框图。
图5是表示实施方式2的学习数据生成装置的动作的流程图。
图6是概略地表示实施方式3的学习数据生成装置的结构的功能框图。
图7是表示实施方式3的学习数据生成装置的动作的流程图。
具体实施方式
以下,参照附图对实施方式的学习数据生成装置、学习数据生成方法以及学习数据生成程序进行说明。在附图中,对相同或同样的结构标注相同的标号。以下的实施方式只不过是例子,能够适当地组合实施方式以及适当地变更各实施方式。
实施方式1
图1是概略地表示实施方式1的学习数据生成装置1的结构的功能框图。学习数据生成装置1是能够实施实施方式1的学习数据生成方法的装置。学习数据生成装置1也可以是作为能够执行实施方式1的学习数据生成程序的信息处理装置的计算机。如图1所示,学习数据生成装置1具有短语提取部14和短语变更部15。另外,学习数据生成装置1也可以具有输入部11、基本分析部12、线索表达存储部13、事例有效性评价用数据存储部16和事例有效性评价部17。
输入部11受理输入语句。输入语句例如是包含根据线索表达而获得的因果关系表达的语句。因果关系表达是说明语句中包含的因果关系的表达。
基本分析部12将由输入部11受理的因果关系表达分隔书写为词素等单位表达。单位表达是词素、或者包含1个以上词素的单词等。“分隔书写”是指在语句中在词的分隔中夹着空白进行记述。在输入语句是如英语等那样分隔书写的语句的情况下,也可以不进行基本分析部12的处理。
线索表达存储部13是存储蓄积有多个线索表达的线索表达数据库(线索表达DB)的存储装置。“线索表达”是指在语句中找到特定部位的基础上成为线索的表达,也称作“连接表达”。存储的线索表达只要是“由于”、“因为”、“因此”等短语间的关系性暗示因果关系的表达,则可以是任何表达。例如,线索表达是通过表示短语间的关系性的表达而预先确定的,例如有“于是”(例如,“~于是就”)、“假如”(例如,“~假如那样”)、“情况”(例如,“~情况下”)、“时”(例如,“进行了~时”)、“时”(例如,“当~时”)、“如果”(例如,“如果进行~的话”)、“因此”(例如,“由于是~因此”)、“但是”(例如,“虽然~但是”)等连接词。此外,线索表达存储部13也可以是学习数据生成装置1外部的存储装置。另外,线索表达存储部13也可以是在与学习数据生成装置1可通信地连接的网络上具备的存储装置。
短语提取部14根据由基本分析部12生成的分隔书写完毕的因果关系表达(即,分隔书写的输入语句)中包含的且线索表达存储部13中存储完毕的线索表达,提取原因表达和结果表达。即,短语提取部14提取原因表达、结果表达和线索表达。短语提取部14例如从“因为下雨地面被淋湿”这样的语句中,根据线索表达(“因为”),提取原因表达(“下雨”)、结果表达(“地面被淋湿”)和线索表达(“因为”)。
短语变更部15具有因果交换部151,该因果交换部151通过交换由短语提取部14提取出的原因表达和结果表达来生成因果关系表达的反例候选(即,变更后的语句)。在多数情况下,原因和结果是不可逆的,因此能够期待从变更后的语句获得恰当的反例。例如,若交换“因为下雨地面被淋湿。”这样的语句的原因表达(“下雨”)和结果表达(“地面被淋湿”),则生成“因为地面被淋湿而下雨。”这样的变更后的语句即反例候选。在英语的情况下,也通过同样的处理,生成反例候选。
事例有效性评价用数据存储部16是存储蓄积有因果关系表达的多个反例候选的事例有效性评价用数据库(事例有效性评价用DB)的存储装置。事例有效性评价用DB例如存储存在于网络上的大量的语句。即,事例有效性评价用数据存储部16存储事例有效性评价用DB,该事例有效性评价用DB用于确认由因果交换部151生成的因果关系表达的反例候选作为文本不存在的情况。此外,事例有效性评价用数据存储部16也可以是学习数据生成装置1外部的存储装置。另外,事例有效性评价用数据存储部16也可以是在与学习数据生成装置1可通信地连接的网络上具备的存储装置。
事例有效性评价部17通过确认由因果交换部151生成的因果关系表达的反例候选(即,变更后的语句)未存储于事例有效性评价用数据存储部16这一情况,确认事例是恰当的反例。具体而言,事例有效性评价部17基于在事例有效性评价用数据存储部16中是否存在相同或相似的语句,确认因果关系表达的反例候选作为反例是否恰当。在与因果关系表达的反例候选相同或相似的语句未被保存在事例有效性评价用数据存储部16中的情况下,事例有效性评价部17将反例候选作为恰当的反例输出。在与因果关系表达的反例候选相同或相似的语句被保存在事例有效性评价用数据存储部16中的情况下,事例有效性评价部17将反例候选作为不恰当的反例输出。
图2是表示实施方式1的学习数据生成装置1的硬件结构的例子的图。学习数据生成装置1例如是具有存储并展开学习数据生成程序等软件程序的RAM(Random AccessMemory:随机存取存储器)等存储器102和作为执行程序的信息处理部的处理器101的处理电路。学习数据生成装置1例如是计算机。学习数据生成装置1具有:鼠标103,其受理来自用户的输入;键盘104;显示装置105,其用于向用户提示事例有效性评价部17的输出结果等;以及辅助存储装置106,其具有存储实现学习数据生成装置1的功能的软件程序的记录介质或者进行针对记录介质的信息读写。辅助存储装置106例如是图1所示的线索表达存储部13和事例有效性评价用数据存储部16。辅助存储装置106例如是硬盘装置或SSD(Solid StateDrive:固态硬盘)。此外,鼠标103、键盘104、显示装置105和辅助存储装置106也可以是与学习数据生成装置1连接的外部装置。例如,辅助存储装置106也可以是存在于能够经由通信接口进行通信的云上的存储装置。另外,存储软件程序的辅助存储装置与存储其他数据的辅助存储装置也可以是不同的存储装置。
另外,学习数据生成装置1的整体或者一部分也可以通过面向特定用途的集成电路(ASIC)等处理电路来实现。例如,图1所示的各功能块也可以通过电气电路来实现。
图3是表示实施方式1的学习数据生成装置1的动作的流程图。以下,使用图3的流程图对图1所示的各功能块的动作进行说明。
在步骤ST11中,输入部11受理包含根据线索表达而获得的因果关系表达的语句(即,输入语句)。在此,获得的因果关系表达例如是如“因为下雨地面被淋湿。”那样包含暗示因果关系表达存在的连接表达(“因为”)的表达。此外,包含因果关系表达的语句可以是用户通过鼠标或者键盘输入的任意语句、作为正例登记于表示因果关系的数据库(DB)中的语句、以及存储于后述的事例有效性评价用数据存储部16的语句中的任意语句。
在步骤ST12中,基本分析部12将因果关系表达分隔书写为词素等单位。例如,基本分析部12以单词为单位分割在输入部11中受理的“因为下雨地面被淋湿。”(yinweixiayudimianbeilinshi)这样的句子,取得“因为/下/雨/地面/被淋湿/”(yinwei/xia/yu/dimian/beilinshi)”这样的以单词为单位的句子。此外,基本分析部12对于如英语等那样用空格表达单词的间断的语言,也可以根据空格划分以单词为单位分割句子。
线索表达存储部13存储的线索表达是“由于”、“因为”、“因此”等短语间的关系性暗示因果关系的表达。
在步骤ST13中,短语提取部14根据存储在线索表达存储部13中的线索表达DB,提取原因表达和结果表达。例如,根据线索表达“因为”,从“因为下雨地面被淋湿。”这样的输入语句中,获得原因表达“下雨”、结果表达“地面被淋湿”和线索表达“因为”。在英语的情况下,短语提取部14根据线索表达“because”,从输入语句包含的原来的句子(例如,“Theground gets wet because it rains.”)中,提取原因表达“it rains”和结果表达“theground get wets”。
在步骤ST14中,短语变更部15的因果交换部151交换由短语提取部14获得的原因表达和结果表达,生成因果关系表达的反例候选(即,变更后的语句)。例如,根据“下雨”(原因表达)、“地面被淋湿”(结果表达)和“因为”(线索表达),生成“因为地面被淋湿而下雨”这样的句子。原因和结果在多数情况下是不可逆的,因此获得恰当的反例的可能性高。在英语的情况下,因果交换部151通过同样的处理,生成反例候选。
在步骤ST15中,事例有效性评价部17基于在事例有效性评价用数据存储部16的事例有效性评价用DB中是否存在相同或相似的句子,确认因果关系表达的反例候选作为反例是否恰当。写在网络上的句子很可能被写手记录为正确且意思通顺的句子。另外,网络上的句子大量存在。基于这些情况,在由因果交换部151生成的因果关系表达的反例候选是意思通顺的句子的情况下,在事例有效性评价用数据存储部16的事例有效性评价用DB中存在相同或相似的句子的可能性高。另一方面,在由因果交换部151生成的因果关系表达的反例候选不是意思通顺的句子的情况下,可认为在事例有效性评价用数据存储部16的事例有效性评价用DB中不存在相同或相似的句子。这样,通过确认在事例有效性评价用DB中是否存在由因果交换部151生成的因果关系表达的反例候选,能够保证反例候选是恰当的反例即是意思不通顺(没有因果关系)的语句的可能性高。
此外,事例有效性评价部17确认在事例有效性评价用数据存储部16的事例有效性评价用DB中是否存在相同或相似的句子,而该检索能够根据检索方式实现高速化。例如,如果使用以Elasticsearch为代表的基于转置索引的检索方式,则能够高速地确认相似句子的有无。另一方面,在使用非专利文献1记载的使用检索句子与检索对象句子间的相似度进行检索的方式等的情况下,虽然速度降低,但能够扩展确认相似的句子对象。
非专利文献1:Song,Y.,&Roth,D.著,“Unsupervised Sparse VectorDensification for Short Text Similarity”,Proceedings of Conference,The2015Conference of the North American Chapter of the Association forComputational.Linguistics:Human Language Technologies,2015年,pp,1275-1280.
如以上说明的那样,根据实施方式1的学习数据生成装置1,因果交换部151仅通过交换由短语提取部14从输入语句中提取出的原因表达和结果表达即互换短语这样的处理,就能够得到反例候选。
另外,事例有效性评价部17判定反例候选是否是恰当的反例,因此,能够高效地生成用于分析因果关系的学习数据的恰当的反例。
实施方式2
图4是概略地表示实施方式2的学习数据生成装置2的结构的功能框图。实施方式2的学习数据生成装置2在短语变更部15a的结构方面与实施方式1的学习数据生成装置1不同。实施方式2中的短语变更部15a具有存储更换候选句子数据库(更换候选句子DB)的更换候选句子存储部152、更换候选句子提取部153以及更换候选句子更换部154。
短语变更部15a将原因表达和结果表达中的一方作为变更对象句子,将变更对象句子更换为与变更对象句子不相似的更换候选句子,由此生成作为变更后的语句的反例候选。
更换候选句子存储部152存储各种句子作为更换候选句子数据库(更换候选句子DB)。更换候选句子提取部153将由短语提取部14提取出的原因表达和结果表达中的一方作为变更对象句子,并从更换候选句子存储部152的更换候选DB中提取作为与该变更对象句子不相似的句子的更换候选句子。更换候选句子更换部154通过用由更换候选句子提取部153提取出的更换候选句子更换变更对象句子,生成变更后的语句。此外,更换候选句子存储部152也可以是学习数据生成装置2外部的存储装置。另外,更换候选句子存储部152也可以是在与学习数据生成装置2可通信地连接的网络上具备的存储装置。
上述以外的学习数据生成装置2的结构与学习数据生成装置1的结构相同。另外,实施方式2的学习数据生成装置2的硬件结构与图2所示的结构相同。
图5是表示实施方式2的学习数据生成装置2的动作的流程图。图5的处理在步骤ST21、ST22的方面与图3的处理不同。其他步骤与图3的步骤相同。因此,以下对步骤ST21、ST22进行说明。
在步骤ST21中,更换候选句子提取部153从更换候选句子存储部152中提取与结果表达不相似的句子。例如,假设在短语提取部14中,提取出原因表达“下雨”、结果表达“地面被淋湿”和线索表达“因为”。此时,更换候选句子提取部153从更换候选句子存储部152中提取与结果表达“地面被淋湿”不相似的句子“梯子倒塌”。同样地,从更换候选句子存储部152中提取与原因表达不相似的句子。
在更换候选句子提取部153中,关于提取与结果表达不相似的句子或与原因表达不相似的句子时的句子间的相似度的计算方法,也可以使用非专利文献2记载的方法或与其等同的直接计算句子间的相似度的统计方法。或者,关于句子间的相似度的计算方法,也可以使用与非专利文献1等同的、基于单词相似度计算句子间的相似度的统计方法。更换候选句子提取部153的句子间的相似度的判定(用于判定为恰当的反例的基准)基于任意的阈值来决定。阈值可以根据输入而动态地决定,也可以固定为常数。
在更换候选句子提取部153中,通过将阈值设定得较低,能够生成与原来的原因或结果不相似的恰当的反例。另一方面,通过将阈值设定得较高,虽然与原来的原因相似,但能够得到较多的事例。在更换候选句子提取部153中,通过将阈值设定得较高,也能够提取与原来的原因相似的恰当的正例。
非专利文献2:Le,Q.,&Mikolov,T.著,“Distributed Representations ofSentences and Documents”,International conference on machine learning,2014年,pp.1188-1196.
在步骤ST22中,更换候选句子更换部154将由短语提取部14获得的原因表达和结果表达中的一方作为变更对象句子,并用作为与由更换候选句子提取部153提取出的变更对象句子不相似的句子的更换候选句子,对变更对象句子进行更换。例如,假设在短语提取部14中,提取出原因表达“下雨”、结果表达“地面被淋湿”和线索表达“因为”。另外,假设在更换候选句子提取部153中,提取出作为与结果表达不相似的句子的更换候选句子“梯子倒塌”。更换候选句子更换部154用与提取出的结果表达不相似的更换候选句子“梯子倒塌”更换结果表达。在原因表达或结果表达的要素被置换为不相似的事例的情况下,与置换为相似的事例的情况相比,可期待容易获得因果关系不成立的事例。因此,可期待能够生成恰当的反例。例如,“地面被淋湿”和“梯子倒塌”被判定为是不相似的句子,因此,从短语变更部15a作为恰当的反例输出。另一方面,例如,“地面被淋湿”和“农作物增加”包含地面和农作物等相互相似的单词,因此,从短语变更部15a作为不恰当的反例输出。
如以上说明的那样,根据实施方式2的学习数据生成装置2,更换候选句子更换部154生成将输入语句中的原因表达和结果表达中的任意一个变更对象句子置换为作为与变更对象句子不相似的句子的更换候选句子而得到的语句。因此,能够生成恰当的反例。特别是,由于从更换候选句子存储部152中得到原因表达和结果表达不相似的语句,因此,能够提取多个与一个原因表达或结果表达对应的不相似的语句,能够从由输入部11入植的1个输入语句中高效地生成多个反例。
另外,在更换候选句子提取部153中,通过关于应提取的对象句子的相似度设置阈值,能够生成灵活地应对要求的反例,如生成可靠度高的反例或者生成许多反例等。
实施方式3
图6是概略地表示实施方式3的学习数据生成装置3的结构的功能框图。实施方式3的学习数据生成装置3是兼具实施方式1的学习数据生成装置1的功能和实施方式2的学习数据生成装置2的功能的装置。实施方式3的学习数据生成装置3在短语变更部15b的结构方面与实施方式1、2的学习数据生成装置1、2不同。实施方式3中的短语变更部15b具有学习数据生成装置1具备的因果交换部151以及学习数据生成装置2具备的更换候选句子存储部152、更换候选句子提取部153和更换候选句子更换部154。短语变更部15b通过“交换原因表达和结果表达”、以及“将原因表达和所述结果表达中的一方作为变更对象句子并将变更对象句子更换为与变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
上述以外的学习数据生成装置3的结构与学习数据生成装置1或2的结构相同。另外,实施方式3的学习数据生成装置3的硬件结构与图2所示的结构相同。
图7是表示实施方式3的学习数据生成装置3的动作的流程图。图7的处理在具有步骤ST31的方面与图3或图5的处理不同。其他步骤与图3或图5的步骤相同。因此,以下说明步骤ST31。
在步骤ST31中,短语变更部15b选择是通过因果交换部151生成交换原因表达和结果表达而成的反例候选,还是通过更换候选句子更换部154将作为原因表达和结果表达中的任意一方的变更对象句子更换为更换候选句子来生成反例候选。但是,短语变更部15b也可以依次进行这2个处理。
可以事先固定使用因果交换部151和更换候选句子更换部154中的哪一个,也可以根据句子的种类动态地判定使用哪一个。
如以上说明的那样,在实施方式3的学习数据生成装置3中,能够切换通过因果交换部151交换原因表达和结果表达来进行反例生成的情况、和更换候选句子更换部154将原因表达或结果表达的变更对象句子更换为作为非相似句子的更换候选句子的情况,因此,能够生成与目标对应的学习数据的反例。
例如,在接收到多个输入语句且它们与多个领域相关的情况下(例如,天气、医疗、饮食等领域),通过由因果交换部151进行互换原因和结果的处理,能够快速生成关于与输入语句关联的全部领域的反例。
另外,在想要大量生成与特定领域相关的反例的情况下,通过由更换候选句子更换部154基于作为非相似句子的更换候选句子进行置换,能够高效地生成与期望领域相关的反例。
标号说明
1~3:学习数据生成装置;11:输入部;12:基本分析部;13:线索表达存储部;14:短语提取部;15、15a、15b:短语变更部;151:因果交换部;152:更换候选句子存储部;153:更换候选句子提取部;154:更换候选句子更换部;16:事例有效性评价用数据存储部;17:事例有效性评价部。
Claims (13)
1.一种学习数据生成装置,其特征在于,该学习数据生成装置具有:
短语提取部,其从输入语句中提取原因表达和结果表达;以及
短语变更部,其通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
2.根据权利要求1所述的学习数据生成装置,其特征在于,
所述短语提取部从所述输入语句中提取线索表达,根据所述线索表达提取所述原因表达和所述结果表达。
3.根据权利要求2所述的学习数据生成装置,其特征在于,
所述短语提取部参照蓄积有多个线索表达的线索表达数据库,提取所述线索表达。
4.根据权利要求3所述的学习数据生成装置,其特征在于,
该学习数据生成装置具有存储所述线索表达数据库的线索表达存储部。
5.根据权利要求1~4中的任意一项所述的学习数据生成装置,其特征在于,
所述短语变更部从蓄积有多个更换候选句子的更换候选句子数据库中,提取与所述变更对象句子不相似的所述更换候选句子,
所述短语变更部将所述变更对象句子更换为提取出的所述更换候选句子。
6.根据权利要求5所述的学习数据生成装置,其特征在于,
所述短语变更部求出所述变更对象句子与所述更换候选句子数据库内的语句之间的相似度,基于将所述相似度与预先确定的阈值进行比较而得到的结果来提取所述更换候选句子。
7.根据权利要求5或6所述的学习数据生成装置,其特征在于,
该学习数据生成装置具有存储所述更换候选句子数据库的更换候选句子存储部。
8.根据权利要求1~7中的任意一项所述的学习数据生成装置,其特征在于,
该学习数据生成装置还具有事例有效性评价部,该事例有效性评价部确认与所述变更后的语句相同或相似的语句未保存在蓄积有因果关系表达的多个反例候选的事例有效性评价用数据库中这一情况,在未保存的情况下,将所述变更后的语句评价为恰当的反例。
9.根据权利要求8所述的学习数据生成装置,其特征在于,
该学习数据生成装置具有存储所述事例有效性评价用数据库的事例有效性评价用数据存储部。
10.根据权利要求1~9中的任意一项所述的学习数据生成装置,其特征在于,
该学习数据生成装置还具有将所述输入语句分离为多个单位表达的基本分析部,
所述短语提取部从被分离为所述单位表达的所述输入语句中,提取所述原因表达和所述结果表达。
11.根据权利要求10所述的学习数据生成装置,其特征在于,
所述单位表达是词素或包含1个以上词素的单词。
12.一种学习数据生成装置执行的学习数据生成方法,其特征在于,该学习数据生成方法具有以下步骤:
从输入语句中提取原因表达和结果表达;以及
通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
13.一种学习数据生成程序,其特征在于,该学习数据生成程序使计算机执行以下处理:
从输入语句中提取原因表达和结果表达;以及
通过“交换所述原因表达和所述结果表达”、以及“将所述原因表达和所述结果表达中的一方作为变更对象句子并将所述变更对象句子更换为与所述变更对象句子不相似的更换候选句子”中的至少一方,生成变更后的语句。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/018299 WO2021220478A1 (ja) | 2020-04-30 | 2020-04-30 | 学習データ作成装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115443465A true CN115443465A (zh) | 2022-12-06 |
Family
ID=78331894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080099932.XA Pending CN115443465A (zh) | 2020-04-30 | 2020-04-30 | 学习数据生成装置、方法以及程序 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230045484A1 (zh) |
EP (1) | EP4131056A4 (zh) |
JP (1) | JP7106036B2 (zh) |
KR (1) | KR102635118B1 (zh) |
CN (1) | CN115443465A (zh) |
WO (1) | WO2021220478A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4321336B2 (ja) * | 2004-04-15 | 2009-08-26 | 富士ゼロックス株式会社 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
JP5682448B2 (ja) * | 2011-05-20 | 2015-03-11 | 日本電気株式会社 | 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム |
JP6618735B2 (ja) * | 2015-08-31 | 2019-12-11 | 国立研究開発法人情報通信研究機構 | 質問応答システムの訓練装置及びそのためのコンピュータプログラム |
JP6715758B2 (ja) * | 2016-12-26 | 2020-07-01 | Kddi株式会社 | 分類器生成装置、分類器生成方法、及びコンピュータプログラム |
JP7139626B2 (ja) * | 2018-03-02 | 2022-09-21 | 日本電信電話株式会社 | フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム |
-
2020
- 2020-04-30 JP JP2022515994A patent/JP7106036B2/ja active Active
- 2020-04-30 EP EP20933231.1A patent/EP4131056A4/en active Pending
- 2020-04-30 CN CN202080099932.XA patent/CN115443465A/zh active Pending
- 2020-04-30 WO PCT/JP2020/018299 patent/WO2021220478A1/ja unknown
- 2020-04-30 KR KR1020227036107A patent/KR102635118B1/ko active IP Right Grant
-
2022
- 2022-10-17 US US17/967,218 patent/US20230045484A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230045484A1 (en) | 2023-02-09 |
JP7106036B2 (ja) | 2022-07-25 |
KR20220145422A (ko) | 2022-10-28 |
EP4131056A4 (en) | 2023-04-26 |
WO2021220478A1 (ja) | 2021-11-04 |
KR102635118B1 (ko) | 2024-02-07 |
JPWO2021220478A1 (zh) | 2021-11-04 |
EP4131056A1 (en) | 2023-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6799800B2 (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
US10831762B2 (en) | Extracting and denoising concept mentions using distributed representations of concepts | |
CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
JP5424001B2 (ja) | 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム | |
CN108334490B (zh) | 关键词提取方法以及关键词提取装置 | |
US7840521B2 (en) | Computer-based method and system for efficient categorizing of digital documents | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN111460083A (zh) | 文档标题树的构建方法、装置、电子设备及存储介质 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
JP2018088101A (ja) | 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム | |
CN111191446B (zh) | 交互信息处理方法、装置、计算机设备和存储介质 | |
JP6936014B2 (ja) | 教師データ収集装置、教師データ収集方法、及びプログラム | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
Hassani et al. | LVTIA: A new method for keyphrase extraction from scientific video lectures | |
JP2021179781A (ja) | 文抽出装置及び文抽出方法 | |
CN111738009A (zh) | 实体词标签生成方法、装置、计算机设备和可读存储介质 | |
CN112836019A (zh) | 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 | |
KR101983477B1 (ko) | 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템 | |
JP5112027B2 (ja) | 文書群提示装置および文書群提示プログラム | |
JP2017068742A (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
CN115443465A (zh) | 学习数据生成装置、方法以及程序 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN112926297A (zh) | 处理信息的方法、装置、设备和存储介质 | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |