CN110612524B - 信息处理装置、信息处理方法以及记录介质 - Google Patents
信息处理装置、信息处理方法以及记录介质 Download PDFInfo
- Publication number
- CN110612524B CN110612524B CN201880028713.5A CN201880028713A CN110612524B CN 110612524 B CN110612524 B CN 110612524B CN 201880028713 A CN201880028713 A CN 201880028713A CN 110612524 B CN110612524 B CN 110612524B
- Authority
- CN
- China
- Prior art keywords
- unit
- evaluation
- information processing
- feature
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 116
- 238000003672 processing method Methods 0.000 title claims description 5
- 239000006185 dispersion Substances 0.000 claims abstract description 46
- 239000000284 extract Substances 0.000 claims abstract description 30
- 238000005192 partition Methods 0.000 claims abstract description 26
- 239000012141 concentrate Substances 0.000 claims abstract description 12
- 238000011156 evaluation Methods 0.000 claims description 184
- 238000004458 analytical method Methods 0.000 claims description 61
- 238000012549 training Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 28
- 238000013145 classification model Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 description 34
- 238000003860 storage Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011157 data evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000019788 craving Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明的信息处理装置从作为文档数据的输入数据中抽出多个特征量,取得与抽出的多个特征量的每一个对应的单词的分散表达,根据取得的分散表达,将抽出的多个特征量集中到多个分区。
Description
技术领域
本发明涉及信息处理装置、信息处理方法以及记录介质。
背景技术
近年来,积极地进行人工智能(AI:Artificial Intelligence)的开发研究,急速地推进了实用化。AI通过计算机人工地再现人实现的学习、推论、判断等各种感知、智慧。
在AI中,以脑力劳动者的工作、决策的情况为蓝本进行智能化的RPA(RoboticProcess Automation Digital Labor:机器人流程自动化数字化劳力)谋求业务的自动化、高效化。在RPA中,AI进行文档的评价。
关于这样的评价文档的质量的技术,在专利文献1中提出了评价文档的质量并且提示成为样本的文档的技术。
专利文献1是在向输入者提示文本文档群的质量的评价结果以外,还提示应该改进的文章和应该成为样本的文章的例子的文档质量评价系统,其对文本文档群内的各文章进行句法分析,针对多个评价项目,对文本文档群的质量进行评分(scoring),向第一用户提示评价结果,抽出在第一用户的最低评价项目中成为低评价的条件所对应的第一文章群、在最低评价项目中评价比第一用户高的第二用户的高评价的条件所对应的第二文章群,从第一和第二文章群中分别抽出类似度高的第一文章和第二文章,将第一文章作为改进对象的例文,将第二文章作为样本的例文进行提示。
现有技术文献
专利文献
专利文献1:日本特开2011-170535号公报
发明内容
发明要解决的课题
有时根据从文档数据抽出的特征量进行文档的评价。能够从文档数据中抽出各种特征量,但从文档数据中抽出的特征量中,有很多类似的特征量,比较繁琐。例如,即使用户确认这些特征量,也难以掌握该文档是怎样的文档。因此,存在希望对从文档数据中抽出的类似的特征量进行集中的需求。
在专利文献1中,无法对从文档数据中抽出的类似的特征量进行集中。
用于解决课题的手段
因此,本发明的信息处理装置具备:抽出单元,其从作为文档数据的输入数据中抽出多个特征量;取得单元,其取得与上述抽出单元抽出的上述多个特征量的每一个对应的单词的分散表达;集中单元,其根据上述取得单元取得的分散表达,将上述抽出单元抽出的上述多个特征量集中到多个分区。
发明效果
根据本发明,能够对从文档数据中抽出的类似的特征量进行集中。
附图说明
图1是表示信息处理装置的硬件结构的一个例子的图。
图2是表示信息处理装置的功能结构的一个例子图。
图3是表示评价基准决定处理的一个例子的流程图。
图4是表示聚类(clustering)结果的树状图的一个例子的图。
图5A是表示单词提示画面的一个例子的图。
图5B是表示单词提示画面的一个例子的图。
图5C是表示单词提示画面的一个例子的图。
图5D是表示单词提示画面的一个例子的图。
图5E是表示单词提示画面的一个例子的图。
图5F是表示单词提示画面的一个例子的图。
图5G是表示单词提示画面的一个例子的图。
图5H是表示单词提示画面的一个例子的图。
图5I是表示单词提示画面的一个例子的图。
图5J是表示单词提示画面的一个例子的图。
图5K是表示单词提示画面的一个例子的图。
图5L是表示单词提示画面的一个例子的图。
图5M是表示单词提示画面的一个例子的图。
图5N是表示单词提示画面的一个例子的图。
图5O是表示单词提示画面的一个例子的图。
具体实施方式
以下,根据附图说明本发明的实施方式。
<实施方式1>
(本实施方式的处理概要)
说明本实施方式的处理概要。在本实施方式中,信息处理装置100是处理的主体。信息处理装置100是个人计算机(PC)、服务器装置、平板电脑装置、智能手机等信息处理装置。
在本实施方式中,信息处理装置100从课题管理系统的标签数据(ticket data)(文档数据)中抽出反映了负责标签数据评价的用户的个性的特征量,将与抽出的特征量对应的单词变换为分散表达(variance expression)。然后,信息处理装置100根据变换为分散表达后的单词之间的距离,对抽出的特征量进行聚类来进行集中。
信息处理装置100接受包含评价基准决定中所利用的特征量的簇(cluster)的指定,根据接受的指定所示的簇所包含的特征量,决定反映了负责标签数据的评价的用户的个性的标签数据的评价基准。
(信息处理装置的硬件结构)
图1是表示信息处理装置100的硬件结构的一个例子的图。
信息处理装置100具备CPU101、主存储装置102、辅助存储装置103、网络I/F104、输入输出I/F105。各要素经由系统总线106可通信地相互连接。
CPU101是控制信息处理装置100的中央运算装置。主存储装置102是作为CPU101的工作区、数据的临时存储位置而发挥功能的随机存取存储器(RAM)等存储装置。
辅助存储装置103是存储各种设定信息、各种程序、训练数据、各种辞典数据、各种模型信息等的存储装置。辅助存储装置103例如构成为只读存储器(ROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、快闪存储器等存储介质。
网络I/F104是经由因特网、LAN等网络在与外部的装置之间进行通信时所利用的接口。输入输出I/F105是鼠标、键盘、触摸屏的操作部等从输入装置输入信息时所利用的接口。另外,输入输出I/F105是显示器、触摸屏的显示部、扬声器等在向输出装置输出信息时所利用的接口。
CPU101根据存储在辅助存储装置103中的程序执行处理,由此实现在图2中后述的信息处理装置100的功能和在图3中后述的流程图的处理等。
(信息处理装置的功能结构)
图2是表示信息处理装置100的功能结构的一个例子的图。
信息处理装置100具备解析部201、学习部202、抽出部203、取得部204、集中部205、输出部206、接受部207、决定部208、评价部209。
解析部201对文档数据进行词素解析、相关语解析、单词的类别分类、文档数据内的短语的特征量的确定(例如向短语赋予含义作用等)等解析。
学习部202根据由用户预先确认为质量好的标签数据构成的正例的训练数据、由用户预先确认为质量差的标签数据构成的反例的训练数据,学习在识别标签数据的质量的好坏时利用的分类模型。在本实施方式中,将训练数据预先存储在辅助存储装置103等中。学习部202例如利用朴素贝叶斯(Naive Bayes)、随机森林(Random Forest)等,学习该分类模型。训练数据是输入数据的一个例子。
抽出部203根据学习部202学习的分类模型中的训练数据的特征量各自的贡献度,从训练数据的特征量中抽出反映了用户的个性的特征量。
取得部204将通过抽出部203抽出的特征量所对应的单词变换为分散表达。
分散表达是用多维(例如100~300维)的实数向量表现单词的技术。文档内的单词的含义是根据周边的单词(上下文)确定的分布假说。如果以分布假说为前提,可以将单词表现为各要素表示各上下文的出现概率的向量。成为上下文的单词是庞大的(1兆个以上),因此该向量的大小也是庞大的(1兆以上的维数)。但是,该向量的要素几乎为0。因此,该向量是可压缩的(例如压缩为100维的大小)。在分散表达中,以分布假说为前提,将单词表现为这样压缩的向量。
对于通过分散表达表示的单词之间,单词之间的含义越接近成为越近的向量。根据该性质,对于分别与通过抽出部203抽出的特征量对应的单词的分散表达所示的向量,含义越接近成为越近的向量。在本实施方式中,信息处理装置100利用该性质,根据与通过抽出部203抽出的特征量对应的单词的分散表达所示的向量之间的距离,对这些特征量进行聚类。向量之间的距离是表示向量之间的不同的程度的指标,例如是将双方向量的起点设为相同的点的情况下的向量的终点之间的距离等。由此,信息处理装置100能够对从文档数据中抽出的特征量进行聚类使得含义类似的特征量之间被包含在相同的簇中。簇是集中了特征量的分区的一个例子。
另外,通过分散表达表示的单词还具有以下这样的性质。即,是这样的性质:表示单词(1)与单词(2)的差的向量和表示单词(3)与单词(4)的差的向量越是接近的向量,则单词(1)与单词(2)的相关性和单词(3)与单词(4)的相关性越类似。
集中部205根据通过取得部204变换为分散表达的单词,对通过抽出部203抽出的特征量进行聚类。即,集中部205根据对应的单词的分散表达的向量之间的距离,对通过抽出部203抽出的特征量进行聚类,确定集中了特征量的多个簇。
输出部206输出通过集中部205确定的各簇的信息、与各簇所包含的特征量对应的单词的信息等。
接受部207从通过集中部205确定的多个簇,接受包含决定评价基准时所利用的特征量的簇的指定。
决定部208根据通过接受部207接受的指定所示的簇所包含的特征量,决定反映了用户的个性的标签数据的评价基准。
评价部209使用通过决定部208决定的评价基准,进行标签数据的评价。
(评价基准决定处理)
图3是表示评价基准决定处理的一个例子的流程图。
在S301中,解析部201针对存储在辅助存储装置103中的训练数据,进行解析处理。解析部201针对训练数据内的各个标签数据,进行词素解析、相关语解析、单词的类别(category)分类、向各短语赋予特征量(例如含义作用)等的解析处理。词素分析是指将文档分解为词素(语言中具有含义的最小单位)并判别各词素的词类等的处理。相关语解析是指判别哪个短语与哪个短语相关的处理。单词的类别分类是参照存储了单词与类别的对应信息的辞典等判别文档中的单词的类别的处理。向各短语赋予含义作用是指,针对文档中的文章进行构造解析,针对文章中的谓语相关的各短语,在解释该谓语的含义的基础上赋予短语的作用(例如“动作主语”、“对象物”等)的处理。解析部201利用含义作用赋予工具,向短语赋予含义作用。
通过S301的处理,解析部201抽出学习部202进行的分类模型的学习中所利用的特征量。在本实施方式中,解析部201抽出在S301向各短语赋予的含义作用,作为学习部202进行的分类模型的学习中所利用的特征量。但是,解析部201也可以抽出单词的类别、单词其本身作为学习部202进行的分类模型的学习中所利用的特征量。另外,解析部201也可以抽出向各短语赋予的含义作用、单词的类别、单词其本身等的组合作为学习部202进行的分类模型的学习中所利用的特征量。
在S302中,学习部202根据在S301从训练数据中抽出的特征量,学习识别标签数据的质量的好坏的分类模型。
在S302中学习的分类模型是从包含由用户预先确认为正例的正例数据和由用户预先确认为反例的反例数据的训练数据学习的模型。因此,可以假定该分类模型的贡献度越大,则越是反映了标签数据评价中的用户的个性的特征量。贡献度是表示在标签数据的质量的好坏的识别中,该特征量产生作用的程度的指标。
在S303中,抽出部203从在S301中抽出的特征量中抽出预先根据在S302中学习的分类模型中的贡献度最大的特征量确定的数量N(例如30等)个特征量,由此,抽出反映了标签数据评价中的用户的个性的特征量。在本实施方式中,抽出部203根据训练数据内的正例数据和反例数据中的具有其特征量的短语的出现概率,来确定某特征量的贡献度。例如,抽出部203将训练数据内的正例数据中的具有其特征量的短语的出现概率除以反例数据中的具有其特征量的短语的出现概率而得的值确定为该特征量的贡献度。然后,抽出部203从所取得的贡献度中的最大的贡献度中确定N个,抽出与所确定的贡献度对应的特征量。
另外,抽出部203也可以针对某关注的特征量,在样本之间将从训练数据中抽出的该特征量的值(出现次数)打乱(shuffle)时的错误率的变化量确定为贡献度。另外,抽出部203也可以将基尼(Gini)系数确定为贡献度。
抽出部203也可以从在S301中抽出的特征量中,抽出在S302中学习的分类模型中的贡献度为预先确定的阈值以上的部分,作为反映了标签数据的评价的用户的个性的特征量。
在S304中,取得部204确定分别与在S303中抽出的特征量对应的短语的主要词。主要词是指代表该短语的单词,例如是短语中的名词部分、短语中的动词部分的原型等。取得部204例如利用含义作用赋予工具,从短语中确定主要词。分别与在S303中抽出的特征量对应的短语的主要词是分别与在S303中抽出的特征量对应的单词的一个例子。
在S305中,取得部204取得在S304中确定的单词的分散表达。取得部204例如通过无训练学习(word2vec、fastText等),取得在S304中确定的单词的分散表达。
在S306中,集中部205根据在S305中取得的分散表达,对在S303中抽出的特征量进行聚类。更具体地说,集中部205根据在S305中取得的分散表达所示的向量之间的距离,对在S303中抽出的特征量进行聚类。分散表达所示的向量具有单词的含义越接近则成为越近的向量的性质。因此,集中部205能够将类似的特征量之间进行集中。集中部205例如生成在图4中后述的树状图作为S306的处理的结果。
集中部205例如利用NN(Nearest Neighbor)法、沃德法(Ward method)等层次型的聚类的方法,对在S303中抽出的特征量进行聚类。集中部205也可以利用非层次型聚类的方法,对在S303中抽出的特征量进行聚类。
在S307中,输出部206输出S306的处理的结果。输出部206例如使经由输入输出I/F105连接的显示器、经由网络I/F105连接的外部装置的监视器的显示部,显示表示在S307中确定的特征量的信息,并进行输出。输出部206例如也可以按图4所示那样的树状图的形式输出S306的处理的结果。
图4是用层次构造表示S306中的聚类处理的中途过程的树状图(树形图)的一个例子的图。在分支的末端或分支点记载的数字表示簇的ID。图4的树状图的右端的ID(15、07、27、09、……、05、03)所示的簇是分别与在S303中抽出的特征量对应的簇。2个簇结合所得的簇是与集中了结合的2个簇的特征量所得的特征量对应的簇。例如,ID34的簇是结合了ID为15的簇和ID为07的簇所得的簇,是与集中了ID为15的簇的特征量和ID为07的簇的特征量所得的特征量对应的簇。另外,结合的次数越少,则更成为与集中了类似的特征量所得的特征量对应的簇。树状图的左端的ID(58)所示的簇为将右端的簇全部结合所得的簇。
在本实施方式中,输出部206将包含图4的树状图并包含在决定评价基准时所利用的特征量的类别的指定时利用的指定画面显示到显示部,由此输出S306的处理的结果。
输出部206在指定画面中检测到光标对准ID等的操作的情况下,使显示部显示提示与进行了选择操作的ID的簇所示的特征量对应的短语的主要词的提示画面。图5A~O是表示提示与ID的簇所示的特征量对应的短语的主要词的提示画面的一个例子的图。图5A~O那样的提示画面是针对集中的多个簇分别表示与簇所包含的特征量对应的单词的信息的一个例子。在本实施方式中,假设信息处理装置100使用作为日语的文档数据的训练数据。因此,在图5A~O那样的提示画面中,提示与对应的簇所包含的特征量对应的日语的单词、或将这些日语的单词翻译为其他语言(例如英语等)的单词。
输出部206如果与单词对应的特征量越是接近簇的中心,则越是增大图5A~O的提示画面中的各单词的大小。与单词对应的特征量越是接近簇的中心,则该单词越是能代表该簇的平均单词。因此,输出部206如果越是能够确切地表现该簇所表示的含义的单词,则越是更大地进行显示。由此,识别提示画面的用户能够更容易地理解该簇所表示的含义。
另外,输出部206例如从对应的特征量接近簇的中心的单词中,将预先确定的个数(例如10、20等)的单词包含在提示画面中。由此,识别提示画面的用户不用确认该簇所包含的全部单词,只识别预先确定个数的单词,就能够理解该簇表示的含义。
用户能够一边识别与各ID的簇对应的提示画面,一边确认各簇是否是集中得多个特征量具有统一感的簇。
图5I的提示画面是结合了与图5B对应的ID为05的簇和与图5D对应的ID为18的簇所得的ID为45的簇所对应的提示画面。如果观察图5I的提示画面,则各单词是表示“物的状态变化”的单词,可以看出整体具有统一感。
另外,图5J的提示画面是结合了与图5A对应的ID为03的簇和与图5I对应的ID为45的簇所得的ID为47的簇所对应的提示画面。如果观察图5J的提示画面,则各单词是表示“物的状态变化”的单词,可以看出整体具有统一感。
另外,图5O的提示画面是结合了与图5J对应的ID为47的簇和与图5N对应的ID为54的簇所得的ID为56的簇所对应的提示画面。如果观察图5O的提示画面,则可以看出各单词在整体上没有统一(例如找不出将“说话”和“溢出”结合起来的概念)。
另外,图5K的提示画面是结合了与图5C对应的ID为10的簇和与图5H对应的ID为41的簇所得的ID为50的簇所对应的提示画面。如果观察图5K的提示画面,则各单词是表示“传达/判断”这样的概念的单词,可以看出整体具有统一感。
另外,图5G的提示画面是结合了与图5E对应的ID为21的簇和与图5F对应的ID为30的簇所得的ID为35的簇所对应的提示画面。如果观察图5G的提示画面,则各单词是表示“评价”这样的概念的单词,可以看出整体具有统一感。
另外,图5M的提示画面是结合了与图5G对应的ID为35的簇和与图5K对应的ID为50的簇所得的ID为53的簇所对应的提示画面。如果观察图5M的提示画面,则各单词是表示“识别/判断”这样的概念的单词,可以看出整体具有统一感。
另外,图5N的提示画面是结合了与图5L对应的ID为51的簇和与图5M对应的ID为53的簇所得的ID为54的簇所对应的提示画面。如果观察图5N的提示画面,则可以看出各单词在整体上没有统一(例如找不出将“重贴”和“适当”统一起来的概念)。
用户能够确认将特征量集中得具有统一感的簇,掌握从怎样的观点出发识别标签数据的质量的好坏。
用户针对包含在决定标签数据的评价基准时利用的特征量的簇的ID,例如进行点击、轻敲等选择操作。在本实施方式中,用户对集中了作为质量好坏的指标而特别重视的特征量的簇的ID进行选择操作。接受部207在检测到对簇的ID的选择操作的情况下,接受进行了选择操作的ID的簇的指定,将与进行了选择操作的ID的簇对应的特征量确定为在决定标签数据的评价基准时利用的特征量。
在S308中,接受部207判定是否经由在S307中输出的指定画面接受了簇的指定。接受部207在判定为接受了簇的指定的情况下,前进到S309的处理,在判定为没有接受簇的指定的情况下,结束图3的处理。
在S309中,决定部208根据与在S308中判定为接受了的指定所示的簇对应的特征量,决定标签数据的评价基准。例如,假设在S308中判定为接受了的指定所示的簇是图4的树状图中ID为47的簇。在该情况下,与在S308中判定为接受了的指定所示的簇对应的特征量是“有状态变化-关系的变化-关系的变化(对象)”、“有状态变化-位置变化-位置关系的变化(物理)”、“有状态变化-位置变化-位置变化(物理)”这3个。
例如,决定部208如下这样决定评价基准。即,决定部208确定训练数据的正例数据中这些特征量的出现频度,将确定的出现频度显示到显示部等来输出,由此向用户进行提示。然后,用户确认所提示的各特征量的出现频度,研究如何处理评价方式(例如是否设为阈值判定、如何设置这时的阈值等)。用户在研究后,经由通过输入输出I/F105连接的输入装置进行操作,向信息处理装置100指示评价方式。
决定部208基于经由通过输入输出I/F105连接的输入装置进行的操作,决定评价方式。决定部208例如基于经由通过输入输出I/F105连接的输入装置进行的操作,取得表示进行阈值判定的指示、这时所使用的阈值的值。然后,决定部208根据所取得的指示、阈值、与在S308中判定为接受了的指示所示的簇对应的特征量,决定评价基准。例如,假设取得1作为区分低评价和中评价的阈值,取得2作为区分中评价和高评价的阈值。在该情况下,决定部208决定如下这样的评价基准,即如果特征量(“有状态变化-关系的变化-关系的变化(对象)”、“有状态变化-位置变化-位置关系的变化(物理)”、“有状态变化-位置变化-位置变化(物理)”)的出现次数不满一次,则将评价值设为低评价,如果为1次以上且不满2次,则将评价值设为中评价,如果为2次以上,则将评价值设为高评价。
另外,决定部208也可以针对所决定的评价基准,决定该评价基准是从怎样的观点出发的评价基准。例如,用户确认与簇对应的提示画面中的单词,掌握所确认的各单词表示怎样的概念,利用经由输入输出I/F105连接的输入装置,向信息处理装置100输入表示所掌握的概念的信息(例如字符串等)。决定部208根据经由通过输入输出I/F105连接的输入装置输入的信息,向所决定的评价基准赋予自然语言的标记(lable),使得人容易理解“基于指定的簇的评价基准是从怎样的观点出发的评价基准”。
另外,评价方式除了各特征量的出现次数的阈值判定以外,例如还有根据各特征量的出现次数的偏差值是否在预定的范围内来决定评价值的方式。
另外,决定部208也可以不从用户接受评价方式的指定,而根据与在S308中判定为接受了的指定所示的簇对应的特征量和预先确定的评价方式,决定评价基准。
在S308中接受了指定的簇的数量既可以是1个,也可以是多个。在进行了多个簇的指定的情况下,在S309中,决定部208对每个簇进行评价基准的决定。
(评价处理)
评价部209使用通过图3的处理决定的评价基准,来评价新输入的标签数据。
在S309中决定的评价基准是以下这样的评价基准,即如果特征量(例如“有状态变化-关系的变化-关系的变化(对象)”、“有状态变化-位置变化-位置关系的变化(物理)”、“有状态变化-位置变化-位置变化(物理)”)的出现次数不满1次,则将评价值设为低评价,如果为一次以上且不满2次,则将评价值设为中评价,如果为2次以上,则将评价值设为高评价。
在该情况下,评价部209从输入的标签数据中抽出特征量,确定在抽出的各特征量中包含多少与评价基准有关的特征量。评价部209根据确定的数量,依照评价基准,决定标签数据的评价值,由此评价标签数据。
另外,评价部209在通过图3的处理决定了多个评价基准的情况下,对每个评价基准进行标签数据的评价。
这样,评价部209使用通过图3的处理决定的评价基准,评价标签数据,由此能够进行反映了进行评价的职责的用户的个性的评价。由此,信息处理装置100能够减轻进行评价的职责的用户评价标签数据的负担。
输出部206例如通过将评价部209的评价结果显示到显示部来进行输出。另外,输出部206在评价部209的评价的结果不是预先确定的评价值(例如高评价等)的情况下,也可以输出例句。预先将该例句的信息存储在辅助存储装置103中。另外,输出部206在评价部209的评价的结果不是预先确定的评价值的情况下,也可以输出建议信息。预先将建议信息存储在辅助存储装置103中。通过这样的处理,输出部206能够辅助标签数据的制作者制作标签数据。该例句的信息、建议信息是向标签数据的制作者的辅助信息的一个例子。
输出部206例如以以下这样的形式输出评价结果。以下的评价结果的例子中的○、△、×分别表示高评价、中评价、低评价。○、△、×分别表示各个评价基准的评价值。△、×后面的记载是向标签数据的制作者的建议信息的一个例子。
================评价结果例子===========================
△-与“地点或时间”有关的记载可能不足。最好增加与具体的地点、明确的日期时间有关的信息。
×-与“判断、预测”有关的记载较少。请针对您如何识别、判断状况增加记载。也可以有断定得如事实那样地进行识别、判断的模式。
△-无法检测到与“目的”有关的记载。在制作的标签是持续改进系统的情况下,可否试着写出希望实现什么那样的目的。
○-没有明确写出“对象”。
======================================================
(效果)
以上,在本实施方式中,信息处理装置100取得与从训练数据中抽出的多个特征量对应的短语所包含的单词的分散表达,根据所取得的分散表达,对抽出的多个特征量进行聚类,由此进行集中。分散表达所示的向量具有含义越接近则为越近的向量的性质,由此,信息处理装置100能够集中从文档数据中抽出的类似的特征量。
另外,信息处理装置100根据包含正例和反例的训练数据,学习识别标签数据的质量的好坏的分类模型。另外,信息处理装置100根据学习的分类模型中的训练数据的特征量的贡献度,抽出反映了标签数据的评价中的用户的个性的多个特征量。信息处理装置100对抽出的特征量进行聚类和集中,决定多个簇。由此,信息处理装置100能够针对反映了标签数据的评价中的用户的个性的特征量,集中类似的特征量。
另外,信息处理装置100接受集中的簇中的包含决定标签数据的评价基准时利用的特征量的簇的指定,根据接受的指定所示的簇所包含的特征量,决定标签数据的评价基准。由此,信息处理装置100能够决定反映了用户的个性的标签数据的评价基准。个性这样的信息是含蓄的,难以表现,但通过本实施方式的处理,信息处理装置100能够决定反映了用户的个性的标签数据的评价基准。进而,信息处理装置100根据所决定的评价基准,评价标签数据。由此,信息处理装置100能够针对标签数据进行反映了用户的个性的评价,能够减轻用户直接评价标签数据的负担。
(变形例)
在本实施方式中,信息处理装置100分别对从作为标签数据的训练数据中抽出的特征量进行集中。但是,信息处理装置100也可以对从其他数据中抽出的特征量进行集中。
例如,信息处理装置100通过与S301相同的处理,也可以从用户过去向评论的投稿服务等投稿的多个评论中,针对各短语抽出特征量。然后,信息处理装置100确定与抽出的特征量对应的短语的主要词,取得所确定的主要词的分散表达。信息处理装置100根据所取得的分散表达,对抽出的特征量进行聚类,由此对含义类似的特征量进行集中。信息处理装置100将表示集中的结果的信息作为包含图5那样的提示画面的图4那样的树状图而显示到显示部。由此,使得用户能够掌握自己投稿的评论所表现出的个性。例如,用户能够掌握自己经常向其他人提出了怎样的意见等。
在本实施方式中,信息处理装置100的评价部209使用通过图3的处理决定的评价基准,评价新输入的标签数据。但是,也可以使安装在信息处理装置100中的AI使用通过图3的处理决定的评价基准,来评价新输入的标签数据。另外,也可以使安装在外部的信息处理装置中的AI使用信息处理装置100通过图3的处理决定的评价基准,来评价新输入的标签数据。
<实施方式2>
在现有的会议、约见等的讨论中,论点的幅度限于其参加者的思路范围内,但如果思路范围窄,则有可能缺乏创思,辩论会停滞,或疏忽风险而发生返工。因此,为了超出参加者的团队的框架地产生创思,存在希望能够简便地利用过去的团队的智慧等当前的团队的智慧以外的智慧的需求。
因此,在本实施方式中,说明信息处理装置100向进行会议的团队提示讨论有可能不足的观点的处理。
本实施方式的信息处理装置100的硬件结构和功能结构与实施方式1相同。
在本实施方式中,辅助存储装置103预先存储有表示过去进行的会议的内容的会议记录信息(例如文本数据、语音数据等文档数据)。另外,会议记录信息包括预先由用户确认为是适当的内容的正例的数据(正例数据)、预先由用户确认为是不适当的内容的反例的数据(反例数据)。
使用图3说明本实施方式的评价基准决定处理。除了使用会议记录信息代替标签数据这一点以外,本实施方式的S301~S307的处理与实施方式1相同。
在本实施方式中,假设信息处理装置100决定多个评价基准。信息处理装置100例如通过反复多次地进行S308~S309的处理,来决定多个评价基准。另外,信息处理装置100例如也可以在S308中接受多个簇的指定,在S309中针对该多个簇,分别根据对应的特征量,决定评价基准。另外,信息处理装置100例如也可以在S308中接受全部簇的指定,在S309中针对全部簇,分别根据对应的特征量,决定评价基准。
然后,某团队进行会议,将其会议的会议记录信息新输入到信息处理装置100,并指定为评价的对象。
评价部209分别利用通过图3的处理决定的多个评价基准,来评价新输入的会议记录信息。然后,评价部209决定分别与通过图3的处理决定的多个评价基准对应的多个评价结果。
在本实施方式中,分别用表示越大则越良好而越小则越不好的值来表示分别与通过图3的处理决定的多个评价基准对应的多个评价结果。
评价部209例如从这些多个评价结果中的值小的结果中,选择预先确定的个数。另外,评价部209例如也可以从这些多个评价结果所包含的预先确定的阈值以下的评价结果中的值小的结果中,选择预先确定的个数。然后,评价部209确定分别与所选择的评价结果对应的评价基准,确定在决定所确定的评价基准时使用的簇。
输出部206例如将通过评价部209确定的簇按照对应的评价结果的从低到高的顺序排序,并显示到显示部来进行输出。
以上,在本实施方式中,信息处理装置100根据过去的会议记录信息,决定多个评价基准,使用所决定的多个评价基准,评价成为评价对象的文档数据。另外,信息处理装置100从评价结果低的结果中选择一部分,输出与所选择的评价结果对应的评价基准所对应的簇。由此,信息处理装置100通过输出表示适当地不包含在评价对象的文档数据中的观点的簇,能够向属于进行会议的团队的用户进行提示。用户能够确认针对所提示的簇所示的观点的讨论不足的情况,而更适当地进行以后的讨论。这样,信息处理装置100能够简便地利用当前的团队的智慧以外的智慧。
另外,信息处理装置100不通过人就能够简便地利用当前的团队的智慧以外的智慧,因此例如即使过去进行会议的人离职等,也能够继续保持该人的智慧。另外,越进行会议,则能够利用的会议记录信息越增加,因此信息处理装置100能够利用更多的智慧。
<实施方式3>
在本实施方式中,说明以下的处理,即通过与实施方式2不同的方法,信息处理装置100向进行会议的团队提示讨论有可能不足的观点。
本实施方式的信息处理装置100的硬件结构和功能结构与实施方式1相同。
在本实施方式中,辅助存储装置103与实施方式2同样地,预先存储有表示过去进行的会议的内容的会议记录信息。另外,在本实施方式中,预先存储在辅助存储装置103中的会议记录信息是与预先由用户确认为是适当的内容的正例数据和预先由用户确认为是不适当的内容的反例数据没有区别的数据。
说明本实施方式的处理。
在本实施方式中,取得部204将预先存储在辅助存储装置103中的过去的会议记录信息作为训练数据,从训练数据中抽出单词,取得所抽出的单词的分散表达。集中部205根据通过取得部204取得的分散表达,对通过取得部204抽出的单词进行聚类。该聚类的结果是将所得到的各簇设为成为单词的特征量的单词簇。单词簇是指分别表示对多个单词进行聚类而得到的多个簇的特征量。作为某单词的特征量的单词簇表示该单词所属的簇。另外,集中部205针对各单词簇,将排列最接近簇的中心的预先确定的个数的单词所得的结果决定为各单词簇的名字。
然后,输出部206输出集中部205的聚类的结果。输出部206例如也可以以图4所示那样的树状图的形式输出集中部205的聚类的结果。
然后,某团队进行会议,将其会议的会议记录信息新输入到信息处理装置100,并指定为评价的对象。
解析部201抽出所指定的会议记录信息所包含的全部单词,针对抽出的各单词,抽出特征量(单词簇)。解析部201例如求出所抽出的各单词的分散表达,根据所求出的分散表达属于哪个簇,来抽出各单词的单词簇。
然后,解析部201针对每个特征量(单词簇),求出表示与特征量对应的单词在评价对象的会议记录信息内出现多少次的指标。在本实施方式中,使用如下这样定义的讨论率作为该指标。讨论率是定义为(评价对象的会议记录信息所包含的与某特征量对应的单词的总数)/(训练数据(预先存储在辅助存储装置103中的会议记录信息)所包含的与该特征量对应的单词的总数)的指标。
解析部201针对每个特征量(单词簇)求出讨论率。可以解释为讨论率越高,则越多地讨论了与该特征量对应的观点。另外,可以解释为讨论率越低,则针对与该特征量对应的观点讨论得越不足。
解析部201从所求出的讨论率中的值小的讨论率中选择预先确定的个数。另外,解析部201例如也可以从所求出的讨论率所包含的预先确定的阈值以下的讨论率中的值小的讨论率中选择预先确定的个数。解析部201确定与所选择的讨论率对应的特征量(单词簇)。
然后,输出部206将通过解析部201确定的特征量按照对应的讨论率从低到高的顺序排序并向显示部显示来进行输出。由此,输出部206能够向用户提示解释为讨论不足的观点。另外,输出部206也可以通过向显示部显示提示与通过解析部201确定的特征量对应的单词(单词簇所包含的单词)的画面来进行输出。由此,输出部206能够更详细地向用户提示解释为讨论不足的观点。
在本实施方式中,对每个特征量(单词簇)将表示与特征量对应的单词在评价对象的会议记录信息内出现多少次地的指标即讨论率被定义为(评价对象的会议记录信息所包含的与某特征量对应的单词的总数)/(训练数据(预先存储在辅助存储装置103中的会议记录信息)所包含的与该特征量对应的单词的总数)。但是,讨论率也可以是如以下说明的那样定义的指标。
首先,针对单词群(多个单词的集合),如下这样定义单词群的体积。即,将从表示与某单词群所包含的各单词对应的向量的多个点选择出的点定义为各顶点,将包含有该多个点中的成为顶点的点以外的全部点的凸包的体积(超体积)定义为该单词群的体积,其中,凸包在分散表达的向量空间(含义空间)内。
另外,讨论率例如也可以是使用该单词群的体积如以下这样定义的指标。即,讨论率可以是定义为(评价对象的会议记录信息所包含的与某特征量对应的全部单词的集合即单词群的体积)/(训练数据(预先存储在辅助存储装置103中的会议记录信息)所包含的与该特征量对应的全部单词的集合即单词群的体积)的指标。
在该情况下,解析部201如下这样求出讨论率。即,解析部201首先确定评价对象的会议记录信息所包含的与特征量对应的全部单词的集合即单词群,确定包含在所确定的单词群中的全部单词在含义空间上的点。然后,解析部201将所确定的点所包含的点作为顶点,确定包含所确定的点中的成为顶点的点以外的全部点的含义空间上的凸包,求出所确定的凸包的体积(超体积)作为该单词群的体积。
接着,解析部201确定预先存储在辅助存储装置103中的会议记录信息所包含的与该特征量对应的全部单词的集合即单词群,确定包含在所确定的单词群中的全部单词在含义空间上的点。然后,解析部201以所确定的点所包含的点为顶点,确定包含所确定的点中成为顶点的点以外的全部点的含义空间上的凸包,求出所确定的凸包的体积(超体积)作为该单词群的体积。
然后,解析部201例如将根据评价对象的会议记录信息求出的单词的体积除以根据作为训练数据的预先存储在辅助存储装置103中的会议记录信息求出的单词的体积,由此求出讨论率。
在本实施方式中,预先存储在辅助存储装置103中的会议记录信息是没有预先由用户确认为是适当的内容的正例数据和预先由用户确认为是不适当的内容的反例数据的区别的数据。但是,预先存储在辅助存储装置103中的会议记录信息也可以是有预先由用户确认为是适当的内容的正例数据和预先由用户确认为是不适当的内容的反例数据的区别的数据。
在该情况下,信息处理装置100例如进行以下这样的处理。
信息处理装置100除了使用单词簇作为在S301中抽出并在此后的处理中使用的特征量这一点以外,到S307的处理为止,进行与实施方式2相同的处理。
然后,某团队进行会议,将其会议的会议记录信息新输入到信息处理装置100,并指定为评价的对象。
解析部201抽出所指定的会议记录信息所包含的全部的单词,并针对抽出的各单词抽出特征量(单词簇)。然后,解析部201针对每个特征量(单词簇),求出表示与特征量对应的单词在评价对象的会议记录信息内出现多少次的讨论率。例如,求出该情况下的讨论率作为(评价对象的会议记录信息所包含的与某特征量对应的单词的总数(体积))/(训练数据(在S301中成为特征量抽出的对象的过去的会议记录信息)所包含的与该特征量对应的单词的总数(体积))。
然后,解析部201例如针对每个特征量(单词簇)求出讨论率,从所求出的讨论率中的值小的讨论率中选择预先确定的个数。另外,解析部201例如也可以从所求出的讨论率所包含的预先确定的阈值以下的讨论率中的值小的讨论率中选择预先确定的个数。解析部201确定与所选择的讨论率对应的特征量(单词簇)。然后,输出部206将通过解析部201确定的特征量按照对应的讨论率从低到高的顺序排序并显示到显示部,由此进行输出。另外,输出部206也可以针对与各特征量对应的单词群进行输出。
预先存储在辅助存储装置103中的会议记录信息具有正例数据和反例数据的区别的情况下,信息处理装置100可以进行以上那样的处理。
另外,在预先存储在辅助存储装置103中的会议记录信息具有正例数据和反例数据的区别的情况下,信息处理装置100也可以进行以下这样的处理。
取得部204从正例数据所包含的单词的集合中,确定除了反例数据包含的单词以外的单词的集合。取得部204从所确定的单词的集合中抽出单词,取得所抽出的单词的分散表达。集中部205根据通过取得部204取得的分散表达,对所确定的单词的集合所包含的单词进行聚类。该聚类的结果是将所得到的各簇设为作为特征量的单词簇。作为聚类处理的结果,集中部205生成图4那样的树状图。
然后,输出部206输出集中部205的聚类的结果。
然后,某团队进行会议,将其会议的会议记录信息新输入到信息处理装置100,并指定为评价的对象。
解析部201抽出所指定的会议记录信息所包含的全部单词,针对所抽出的各单词,抽出特征量(单词簇)。然后,解析部201针对每个特征量(单词簇),求出表示与特征量对应的单词在评价对象的会议记录信息内出现多少次的讨论率。例如,求出该情况下的讨论率作为(评价对象的会议记录信息所包含的与某特征量对应的单词的总数(体积))/(训练数据(预先存储在辅助存储装置103中的过去的会议记录信息所包含的正例数据)所包含的与该特征量对应的单词的总数(体积))。
然后,解析部201例如针对每个特征量(单词簇)求出讨论率,从所求出的讨论率中的值小的讨论率中,选择预先确定的个数。另外,解析部201例如也可以从所求出的讨论率所包含的预先确定的阈值以下的讨论率中的值小的讨论率中选择预先确定的个数。解析部201确定与所选择的讨论率对应的特征量(单词簇)。然后,输出部206将通过解析部201确定的特征量按照对应的讨论率从低到高的顺序排序并显示到显示部,由此进行输出。另外,输出部206也可以针对与各特征量对应的单词群进行输出。
在预先存储在辅助存储装置103中的会议记录信息包括正例数据和反例数据的情况下,信息处理装置100可以进行以上那样的处理。
另外,在预先存储在辅助存储装置103中的会议记录信息中有正例数据和反例数据的区别的情况下,信息处理装置100也可以进行以下这样的处理。
取得部204从反例数据所包含的单词的集合中,确定除了正例数据包含的单词以外的单词的集合。取得部204从所确定的单词的集合中抽出单词,取得所抽出的单词的分散表达。集中部205根据通过取得部204取得的分散表达,对所确定的单词的集合所包含的单词进行聚类。该聚类的结果是将所得到的各簇设为作为特征量的单词簇。在该情况下,作为特征量的单词簇是只出现在反例数据中而不出现在正例数据中的单词的簇。因此,可以解释为具有这些特征量的单词的出现频度越高,则越多地进行了不适合的观点的讨论。
作为聚类处理的结果,集中部205生成图4那样的树状图。然后,输出部206输出集中部205的聚类的结果。
然后,某团队进行会议,将其会议的会议记录信息新输入到信息处理装置100,并指定为评价的对象。
解析部201抽出所指定的会议记录信息所包含的全部单词,针对所抽出的各单词,抽出特征量(单词簇)。然后,解析部201针对每个特征量(单词簇),求出表示与特征量对应的单词在评价对象的会议记录信息内出现多少次的讨论率。例如,求出该情况下的讨论率作为(评价对象的会议记录信息所包含的与某特征量对应的单词的总数(体积))/(训练数据(预先存储在辅助存储装置103中的过去的会议记录信息所包含的反例数据)所包含的与该特征量对应的单词的总数(体积))。
然后,解析部201例如针对每个特征量(单词簇)求出讨论率,从所求出的讨论率中的值高的讨论率中,选择预先确定的个数。另外,解析部201例如也可以从所求出的讨论率所包含的预先确定的阈值以上的讨论率中的值高的讨论率中选择预先确定的个数。解析部201确定与所选择的讨论率对应的特征量(单词簇)。然后,输出部206将通过解析部201确定的特征量按照对应的讨论率从高到低的顺序排序并显示到显示部,由此进行输出。另外,输出部206也可以针对与各特征量对应的单词群进行输出。
由此,信息处理装置100能够向用户提示正在讨论的不适合的观点,能够唤起用户对持续讨论这样的观点的注意。
在预先存储在辅助存储装置103中的会议记录信息包括正例数据和反例数据的情况下,信息处理装置100可以进行以上那样的处理。
以上,在本实施方式中,信息处理装置100针对所抽出的各特征量求出讨论率,根据所求出的讨论率,确定表示在与评价对象的会议记录信息对应的讨论中应该注意的观点(可以解释为讨论不足的观点、正在进行不适合的讨论的观点等)的特征量。另外,信息处理装置100通过输出所确定的特征量,而向属于进行会议的团队的用户进行提示。由此,用户能够掌握应该注意的观点。用户能够在掌握所提示的特征量所示的观点后,更适当地进行此后的讨论。这样,信息处理装置100能够简便地利用当前的团队的智慧以外的智慧。
<其他实施方式>
在实施方式1~3中,信息处理装置100是单体的信息处理装置。但是,信息处理装置100也可以构成为包含经由网络(LAN、因特网)相互可通信地连接的多个信息处理装置的系统。在该情况下,信息处理装置100所包含的多个信息处理装置各自的CPU根据存储在各个信息处理装置的辅助存储装置中的程序协作地执行处理,由此实现图2的功能和图3的流程图的处理等。
另外,在实施方式1、2中,信息处理装置100根据与各特征量对应的单词的分散表达,对多个特征量进行聚类,并根据聚类结果,决定评价基准,作为基于所决定的评价基准的评价结果,输出表示讨论不足的观点的特征量、与该特征量对应的单词,由此向用户进行提示。
但是,信息处理装置100也可以代替单词而使用短语、句子、段落(句子的序列)、文档(段落的序列(句子的序列))(以下称为短语等),也可以代替单词的分散表达而使用根据短语等例如利用神经语言模型(深度学习的现有方法)等求出的向量。可以使用神经语言模型等,针对短语等,求出相互的含义越接近则为相互越近的向量那样的具有与单词的分散表达同样的性质的短语等所对应的向量。以下,将这样的向量称为短语等向量。
在该情况下,信息处理装置100也可以根据与各特征量对应的短语等的短语等向量,对多个特征量进行聚类,根据聚类结果决定评价基准,作为基于所决定的评价基准的评价结果,输出表示讨论不足的观点的特征量、与该特征量对应的短语等,由此向用户进行提示。
另外,在实施方式2、3中,说明了以下的处理,即信息处理装置100通过对过去的会议记录信息所包含的单词进行聚类,确定作为特征量的单词簇,求出每个特征量(单词簇)的讨论率,输出与从所求出的讨论率中的大(小)的讨论率中选择出的讨论率对应的特征量、与特征量对应的单词。但是,信息处理装置100也可以使用短语等来代替单词,使用短语等向量来代替单词的分散表达。
在该情况下,信息处理装置100也可以通过对过去的会议记录信息所包含的短语等进行聚类,而确定作为特征量的短语等类别,求出每个特征量(短语等簇)的讨论率,输出与从所求出的讨论率中的大(小)的讨论率中选择出的讨论率对应的特征量、与特征量对应的短语等。在该情况下,例如设为(评价对象的会议记录信息所包含的与某特征量对应的短语等的总数(体积))/(训练数据(预先存储在辅助存储装置103中的过去的会议记录信息)所包含的与该特征量对应的短语等的总数(体积)),而求出讨论率。
以上,详细说明了本发明的理想的实施方式,但本发明并不限于该特定的实施方式。
例如,也可以将上述信息处理装置100的功能结构的一部分或全部作为硬件安装到信息处理装置100中。
Claims (14)
1.一种信息处理装置,其特征在于,具备:
解析单元,其进行作为文档数据的训练数据的解析处理,从上述训练数据抽出用于学习的多个特征量;
学习单元,其在用户确认为正例的正例训练数据和用户确认为反例的反例训练数据中,基于上述解析单元抽出的多个特征量来学习分类模型;
抽出单元,其基于上述学习单元学习的分类模型中的特征量的贡献度,抽出由上述解析单元抽出的多个特征量中的一部分特征量;
取得单元,其确定与上述抽出单元抽出的特征量的每一个对应的代表所述训练数据内的短语的单词,取得确定出的上述单词的分散表达;
集中单元,其根据上述取得单元取得的分散表达,将上述抽出单元抽出的特征量集中到多个分区,
接受单元,其接受通过上述集中单元集中后的上述多个分区中的、包含决定新输入的文档数据的评价基准时所利用的特征量的分区的指定;
决定单元,其根据上述接受单元接受的指定所示的分区所包含的特征量,决定新输入的文档数据的评价基准;以及
评价单元,其根据上述决定单元决定的上述评价基准,进行新输入的文档数据的评价,
上述分散表达是用多维的实数向量表现单词的技术,
上述集中单元根据上述分散表达的向量之间的距离,将上述抽出单元抽出的特征量集中到多个分区。
2.根据权利要求1所述的信息处理装置,其特征在于,
上述信息处理装置还具备:第一输出单元,其输出表示通过上述集中单元集中后的上述多个分区的信息。
3.根据权利要求1所述的信息处理装置,其特征在于,
上述信息处理装置还具备:第二输出单元,其输出上述评价单元的评价结果。
4.根据权利要求3所述的信息处理装置,其特征在于,
上述第二输出单元在上述评价单元的评价结果为预先确定的评价值的情况下,还向文档数据的制作者输出辅助信息。
5.根据权利要求1所述的信息处理装置,其特征在于,
上述评价单元根据上述决定单元决定的多个上述评价基准的每一个,进行文档数据的评价,
上述信息处理装置还具备:第三输出单元,其输出根据与上述决定单元决定的多个上述评价基准的每一个对应的上述评价单元的多个评价结果选择出的上述多个分区所包含的分区。
6.根据权利要求1所述的信息处理装置,其特征在于,
上述接受单元还接受上述评价基准中的评价方式的指定,
上述决定单元根据上述接受单元接受的指定所示的分区和评价方式,决定上述评价基准。
7.根据权利要求1所述的信息处理装置,其特征在于,
上述接受单元经由指定包含决定上述评价基准时所利用的特征量的分区时所利用的指定画面,接受通过上述集中单元集中后的上述多个分区中的、包含决定上述评价基准时所利用的特征量的分区的指定。
8.根据权利要求7所述的信息处理装置,其特征在于,
上述指定画面中,针对通过上述集中单元集中后的上述多个分区的每一个,包含表示与分区所包含的特征量对应的单词的信息。
9.根据权利要求1所述的信息处理装置,其特征在于,
上述抽出单元根据上述分类模型中的特征量的贡献度,从贡献度最大的特征量开始依次抽出预先确定的数量的特征量。
10.根据权利要求1所述的信息处理装置,其特征在于,
上述抽出单元根据上述分类模型中的特征量的贡献度,抽出贡献度为预先确定的阈值以上的特征量。
11.根据权利要求1所述的信息处理装置,其特征在于,
上述信息处理装置还具备:第四输出单元,其输出根据表示与单词的特征量的每一个对应的单词在指定的文档数据中分别出现多少次的指标而选择出的单词的特征量。
12.根据权利要求1所述的信息处理装置,其特征在于,
上述信息处理装置还具备:第五输出单元,其输出根据表示与单词的特征量的每一个对应的单词在指定的文档数据中分别出现多少次的指标而选择出的单词的特征量所对应的单词。
13.一种信息处理方法,其由信息处理装置执行,其特征在于,该信息处理方法包括如下步骤:
解析步骤,进行作为文档数据的训练数据的解析处理,从上述训练数据抽出用于学习的多个特征量;
学习步骤,其在用户确认为正例的正例训练数据和用户确认为反例的反例训练数据中,基于在上述解析步骤中抽出的多个特征量来学习分类模型;
抽出步骤,基于在上述学习步骤中学习的分类模型中的特征量的贡献度,抽出在上述解析步骤中抽出的多个特征量中的一部分特征量;
取得步骤,确定与在上述抽出步骤中抽出的特征量的每一个对应的代表所述训练数据内的短语的单词,取得确定出的上述单词的分散表达;
集中步骤,根据在上述取得步骤中取得的分散表达,将在上述抽出步骤中抽出的特征量集中到多个分区,
接受步骤,接受在上述集中步骤中集中的上述多个分区中的、包含决定新输入的文档数据的评价基准时所利用的特征量的分区的指定;
决定步骤,根据在上述接受步骤中接受的指定所示的分区所包含的特征量,决定新输入的文档数据的评价基准;以及
评价步骤,根据在上述决定步骤中决定的上述评价基准,进行新输入的文档数据的评价,
上述分散表达是用多维的实数向量表现单词的技术,
在上述集中步骤中,根据上述分散表达的向量之间的距离,将在上述抽出步骤中抽出的特征量集中到多个分区。
14.一种记录有程序的计算机可读记录介质,其特征在于,上述程序用于使计算机执行如下步骤:
解析步骤,进行作为文档数据的训练数据的解析处理,从上述训练数据抽出用于学习的多个特征量;
学习步骤,其在用户确认为正例的正例训练数据和用户确认为反例的反例训练数据中,基于在上述解析步骤中抽出的多个特征量来学习分类模型;
抽出步骤,基于在上述学习步骤中学习的分类模型中的特征量的贡献度,抽出在上述解析步骤中抽出的多个特征量中的一部分特征量;
取得步骤,确定与在上述抽出步骤中抽出的特征量的每一个对应的代表所述训练数据内的短语的单词,取得确定出的上述单词的分散表达;
集中步骤,根据在上述取得步骤中取得的分散表达,将在上述抽出步骤中抽出的特征量集中到多个分区,
接受步骤,接受在上述集中步骤中集中的上述多个分区中的、包含决定新输入的文档数据的评价基准时所利用的特征量的分区的指定;
决定步骤,根据在上述接受步骤中接受的指定所示的分区所包含的特征量,决定新输入的文档数据的评价基准;以及
评价步骤,根据在上述决定步骤中决定的上述评价基准,进行新输入的文档数据的评价,
上述分散表达是用多维的实数向量表现单词的技术,
在上述集中步骤中,根据上述分散表达的向量之间的距离,将在上述抽出步骤中抽出的特征量集中到多个分区。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-118417 | 2017-06-16 | ||
JP2017118417 | 2017-06-16 | ||
PCT/JP2018/022374 WO2018230551A1 (ja) | 2017-06-16 | 2018-06-12 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110612524A CN110612524A (zh) | 2019-12-24 |
CN110612524B true CN110612524B (zh) | 2023-11-10 |
Family
ID=64659253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880028713.5A Active CN110612524B (zh) | 2017-06-16 | 2018-06-12 | 信息处理装置、信息处理方法以及记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11386354B2 (zh) |
JP (1) | JP6622430B2 (zh) |
CN (1) | CN110612524B (zh) |
WO (1) | WO2018230551A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110612524B (zh) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及记录介质 |
US11094318B1 (en) * | 2018-10-15 | 2021-08-17 | United Services Automobile Association (Usaa) | Providing an automated summary |
US11790262B2 (en) * | 2019-01-22 | 2023-10-17 | Accenture Global Solutions Limited | Data transformations for robotic process automation |
US11500942B2 (en) * | 2019-06-07 | 2022-11-15 | Adobe Inc. | Focused aggregation of classification model outputs to classify variable length digital documents |
CN110597977B (zh) * | 2019-09-16 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
JPWO2021090681A1 (zh) * | 2019-11-07 | 2021-05-14 | ||
JP7453116B2 (ja) * | 2020-09-30 | 2024-03-19 | 日鉄ソリューションズ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2022095024A (ja) * | 2020-12-16 | 2022-06-28 | キヤノン株式会社 | 学習データ生成装置、学習データ生成方法及びコンピュータプログラム |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01188934A (ja) * | 1988-01-22 | 1989-07-28 | Nec Corp | 文書自動分類装置 |
JP2006139518A (ja) * | 2004-11-11 | 2006-06-01 | Nec Corp | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101436201A (zh) * | 2008-11-26 | 2009-05-20 | 哈尔滨工业大学 | 一种变粒度文本聚类的特征量化方法 |
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
JP2010198278A (ja) * | 2009-02-25 | 2010-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 評判情報分類装置、評判情報分類方法及びプログラム |
CN101833549A (zh) * | 2009-03-11 | 2010-09-15 | 索尼公司 | 文本分析设备、方法和程序 |
JP2011170535A (ja) * | 2010-02-17 | 2011-09-01 | Nomura Research Institute Ltd | 文書品質評価システムおよび文書品質評価プログラム |
CN102473298A (zh) * | 2009-07-01 | 2012-05-23 | 日本电气株式会社 | 提取代表特征的系统和方法 |
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN103548041A (zh) * | 2011-06-28 | 2014-01-29 | 国际商业机器公司 | 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序 |
CN104462363A (zh) * | 2014-12-08 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104685493A (zh) * | 2012-09-27 | 2015-06-03 | 日本电气株式会社 | 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 |
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
JP2015203961A (ja) * | 2014-04-14 | 2015-11-16 | 株式会社toor | 文書抽出システム |
CN106663087A (zh) * | 2014-10-01 | 2017-05-10 | 株式会社日立制作所 | 文章生成系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6720764B2 (ja) | 2016-08-08 | 2020-07-08 | 富士ゼロックス株式会社 | テキスト解析装置及びプログラム |
US20180285447A1 (en) * | 2017-03-31 | 2018-10-04 | Nec Personal Computers, Ltd. | Content recommendation apparatus, content recommendation system, content recommendation method, and program |
US11379861B2 (en) * | 2017-05-16 | 2022-07-05 | Meta Platforms, Inc. | Classifying post types on online social networks |
CN110612524B (zh) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及记录介质 |
-
2018
- 2018-06-12 CN CN201880028713.5A patent/CN110612524B/zh active Active
- 2018-06-12 US US16/605,729 patent/US11386354B2/en active Active
- 2018-06-12 WO PCT/JP2018/022374 patent/WO2018230551A1/ja active Application Filing
- 2018-06-12 JP JP2018567326A patent/JP6622430B2/ja active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01188934A (ja) * | 1988-01-22 | 1989-07-28 | Nec Corp | 文書自動分類装置 |
JP2006139518A (ja) * | 2004-11-11 | 2006-06-01 | Nec Corp | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101436201A (zh) * | 2008-11-26 | 2009-05-20 | 哈尔滨工业大学 | 一种变粒度文本聚类的特征量化方法 |
JP2010198278A (ja) * | 2009-02-25 | 2010-09-09 | Nippon Telegr & Teleph Corp <Ntt> | 評判情報分類装置、評判情報分類方法及びプログラム |
CN101833549A (zh) * | 2009-03-11 | 2010-09-15 | 索尼公司 | 文本分析设备、方法和程序 |
CN102473298A (zh) * | 2009-07-01 | 2012-05-23 | 日本电气株式会社 | 提取代表特征的系统和方法 |
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
JP2011170535A (ja) * | 2010-02-17 | 2011-09-01 | Nomura Research Institute Ltd | 文書品質評価システムおよび文書品質評価プログラム |
CN103548041A (zh) * | 2011-06-28 | 2014-01-29 | 国际商业机器公司 | 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序 |
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN104685493A (zh) * | 2012-09-27 | 2015-06-03 | 日本电气株式会社 | 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 |
JP2015169951A (ja) * | 2014-03-04 | 2015-09-28 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
JP2015203961A (ja) * | 2014-04-14 | 2015-11-16 | 株式会社toor | 文書抽出システム |
CN106663087A (zh) * | 2014-10-01 | 2017-05-10 | 株式会社日立制作所 | 文章生成系统 |
CN104462363A (zh) * | 2014-12-08 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200293553A1 (en) | 2020-09-17 |
WO2018230551A1 (ja) | 2018-12-20 |
CN110612524A (zh) | 2019-12-24 |
US11386354B2 (en) | 2022-07-12 |
JPWO2018230551A1 (ja) | 2019-06-27 |
JP6622430B2 (ja) | 2019-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110612524B (zh) | 信息处理装置、信息处理方法以及记录介质 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN111680159B (zh) | 数据处理方法、装置及电子设备 | |
Boltužić et al. | Fill the gap! analyzing implicit premises between claims from online debates | |
Salton et al. | Idiom token classification using sentential distributed semantics | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
Das et al. | Emotion classification in a resource constrained language using transformer-based approach | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN112036177A (zh) | 基于多模型融合的文本语义相似度信息处理方法及系统 | |
Wu et al. | BTM and GloVe similarity linear fusion-based short text clustering algorithm for microblog hot topic discovery | |
CN113761377B (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
Liao et al. | Hierarchical coherence modeling for document quality assessment | |
Ara et al. | Understanding customer sentiment: Lexical analysis of restaurant reviews | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
Ruposh et al. | A computational approach of recognizing emotion from Bengali texts | |
CN116562278B (zh) | 一种词语相似性检测方法及系统 | |
Narendra et al. | Named entity recognition based resume parser and summarizer | |
Syn et al. | Using latent semantic analysis to identify quality in use (qu) indicators from user reviews | |
Shang | Spoken Language Understanding for Abstractive Meeting Summarization | |
Cuadrado et al. | team UTB-NLP at finances 2023: financial targeted sentiment analysis using a phonestheme semantic approach | |
Rajput et al. | Analysis of various sentiment analysis techniques | |
Thomas et al. | Synthesized feature space for multiclass emotion classification | |
CN115238077A (zh) | 基于人工智能的文本分析方法、装置、设备及存储介质 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |