CN115104112A - 文档评价程序、文档评价方法以及文档评价装置 - Google Patents

文档评价程序、文档评价方法以及文档评价装置 Download PDF

Info

Publication number
CN115104112A
CN115104112A CN202080096614.8A CN202080096614A CN115104112A CN 115104112 A CN115104112 A CN 115104112A CN 202080096614 A CN202080096614 A CN 202080096614A CN 115104112 A CN115104112 A CN 115104112A
Authority
CN
China
Prior art keywords
document
evaluation
feature
value
variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080096614.8A
Other languages
English (en)
Inventor
柳濑隆史
浅井达哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN115104112A publication Critical patent/CN115104112A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明能够进行考虑了文档的属性的多样性的文档评价。文档评价装置获取分别将包含表示文档中的单词的出现状况的一个以上的第一特征变量和表示与文档对应的业务的属性的一个以上的第二特征变量的多个特征变量中的一个以上的特征变量的值的条件与文档的评价结果建立了对应关系的多个判定规则。文档评价装置计算与评价对象文档对应的多个特征变量的值,选择多个判定规则中的、条件适合评价对象文档的计算出的值并且条件包含至少一个第一特征变量的判定规则。文档评价装置基于选择的判定规则,生成评价对象文档的评价结果。

Description

文档评价程序、文档评价方法以及文档评价装置
技术领域
本发明涉及文档评价程序、文档评价方法以及文档评价装置。
背景技术
有某一用户制作与业务有关的文档,并由其他人阅读该文档的情况。此时,关于是否能够顺利地进行该业务,有时受到读者从文档感受到的印象的影响,有时取决于文档的优劣。例如,在制作招募应募者的招募文档的情况下,有时文档的书写方法对应募者的多寡造成影响。另外,例如在制作建议业务计划的建议书的情况下,有时文档的书写方法对研究会议的成员的印象造成影响,而对建议书的采用与否造成影响。
因此,有时构建对用户制作的文档进行评价的信息处理系统。例如,考虑预先准备根据特定的种类的单词的出现状况求出文档的评价值的判定规则,信息处理系统使用该判定规则评价文档。判定规则既有人工制作的情况,也有通过机械学习生成的情况。
此外,作为使用了机械学习的文档处理技术的例子,建议有根据包含表示相似的句子对的正例和表示不相似的句子对的负例的训练数据生成用于计算两个句子的相似度的神经网络的学习装置。
专利文献1:日本特开2017-10249号公报
但是,即使是相同的文档,也有根据在对该文档进行解释上成为前提的业务的属性而文档的印象改变的可能性。例如,有对于某一文档的书写方法,根据业务的类型而印象改变的可能性。另外,也有在预算较少的业务、交期较短的业务中印象较差,另一方面在预算较多的业务、交期较长的业务中印象较好的情况。
对于这一点,若与业务的属性无关地使用共用的判定规则,则文档评价的精度降低。另一方面,若按照每个属性值准备判定规则,则有成本增大这样的问题。在人工制作判定规则的情况下,规则制作者的负担增大。在通过机械学习生成判定规则的情况下,按照每个属性值准备足够的量的样本文档,而数据准备的负担增大。
发明内容
在一个侧面,本发明的目的在于提供能够进行考虑了文档的属性的多样性的文档评价的文档评价程序、文档评价方法以及文档评价装置。
在一个方式中,提供使计算机执行以下的处理的文档评价程序。获取分别将包含表示文档中的单词的出现状况的一个以上的第一特征变量和表示与文档对应的业务的属性的一个以上的第二特征变量的多个特征变量中的一个以上的特征变量的值的条件与文档的评价结果建立了对应关系的多个判定规则。计算与评价对象文档对应的多个特征变量的值,选择多个判定规则中的、条件适合评价对象文档的计算出的值并且条件包含至少一个第一特征变量的判定规则。基于选择的判定规则,生成评价对象文档的评价结果。
另外,在一个方式中,提供计算机执行的文档评价方法。另外,在一个方式中,提供具有存储部和处理部的文档评价装置。
在一个侧面,能够进行考虑了文档的属性的多样性的文档评价。
通过与表示作为本发明的例子而优选的实施方式的附图相关的以下的说明,本发明的上述以及其它的目的、特征以及优点变得更加明确。
附图说明
图1是说明第一实施方式的文档评价装置的例子的图。
图2是表示第二实施方式的文档评价装置的硬件例的图。
图3是表示文档的第一例的图。
图4是表示文档的第二例的图。
图5是表示文档的第三例的图。
图6是表示订货管理表格的例子的图。
图7是表示训练数据表格的第一例的图。
图8是表示文档的第四例的图。
图9是表示训练数据表格的第二例的图。
图10是表示假设表格的例子的图。
图11是表示文档的第五例的图。
图12是表示特征数据的例子的图。
图13是表示与评价对象文档匹配的假设的选择例的图。
图14是表示评价值的计算例的图。
图15是表示增删画面的例子的图。
图16是表示文档评价装置的功能例的框图。
图17是表示模型生成的顺序例的流程图。
图18是表示模型生成的顺序例的流程图(续)。
图19是表示文档评价的顺序例的流程图。
图20是表示文档评价的顺序例的流程图(续)。
具体实施方式
以下,参照附图对本实施方式进行说明。
[第一实施方式]
对第一实施方式进行说明。
图1是说明第一实施方式的文档评价装置的例子的图。
第一实施方式的文档评价装置10考虑业务的属性的不同来评价文档。文档评价装置10既可以是客户端装置,也可以是服务器装置。文档评价装置10也可以说是计算机、信息处理装置、机械学习装置等。
文档评价装置10具有存储部11以及处理部12。存储部11既可以是RAM(RandomAccess Memory:随机存取存储器)等易失性半导体存储器,也可以是HDD(Hard DiskDrive:硬盘驱动器)、闪存等非易失性存储器。处理部12例如是CPU(Central ProcessingUnit:中央处理器)、GPU(Graphics Processing Unit:图形处理器)、DSP(Digital SignalProcessor:数字信号处理器)等处理器。但是,处理部12也可以包含ASIC(ApplicationSpecific Integrated Circuit:专用集成电路)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等特定用途的电子电路。处理器执行存储于RAM等存储器(也可以是存储部11)的程序。也有将多个处理器的集合称为“多处理器”或者仅称为“处理器”的情况。
存储部11存储评价对象文档13。评价对象文档13包含以自然语言记述的文章。文章是包含多个单词的文字列。另外,存储部11存储包含判定规则14a、14b、14c的多个判定规则。多个判定规则分别将一个以上的特征变量的条件与文档的评价结果建立对应关系。也能够将特征变量称为说明变量,也能够将评价结果称为目的变量。
例如,预先通过机械学习生成判定规则14a、14b、14c。判定规则14a、14b、14c示出的条件是对多个特征变量中的一个特征变量或者两个以上的特征变量的组合规定的值的条件。在多个特征变量中包含有表示文档中的单词的出现状况的一个以上的特征变量(第一特征变量)、和表示与文档对应的业务的属性的一个以上的特征变量(第二特征变量)。也能够将前者称为语言特征,也能够将后者称为非语言属性。
作为语言特征,例如能够列举总字数或者总单词数等文章长度、连词或者副词等特定的词类的单词数、以及委托表现或者禁止表现或者数值表现等特定的种类的表现数。作为非语言属性,例如能够列举业务的类型、订货价格或者预算额等预定价格、交期或者准备期间等预定期间。通过对文档所包含的文字列进行分析来提取语言特征。关于非语言属性,既有对文档的意思进行解释而从文档本身提取的情况,也有根据位于文档的外部的业务信息提取的情况。与文档对应的业务例如是使用文档的业务或者文档建议的业务。评价结果例如是表示是良好的文档还是较差的文档的标志。例如根据应募者数或者企划采用与否等业务结果来判断评价结果。应募者较多的招募文档被判断为高评价,采用了企划的建议文档被判断为高评价。
处理部12计算与评价对象文档13对应的多个特征变量的值。作为一个例子,处理部12计算特征变量v1、v2、v3、v4的值。特征变量v1、v2是语言特征,特征变量v3、v4是非语言属性。特征变量v1表示特定的词类的单词数。特征变量v2表示特定的种类的表现数。特征变量v3表示预定价格。特征变量v4表示预定期间。这里,针对评价对象文档13,计算为v1=2、v2=6、v3=150、v4=3。也有根据评价对象文档13的外部的业务信息提取特征变量v3、v4的值的情况。
处理部12从包含判定规则14a、14b、14c的多个判定规则中,检索条件适合评价对象文档13的值的判定规则。处理部12选择所检索出的判定规则中的、条件包含至少一个语言特征的判定规则。即,排除在条件中不包含任何语言特征的判定规则。
作为一个例子,判定规则14a表示满足v2≥4并且v4≤3这样的条件的文档的评价较低。判定规则14b表示满足v1≥4并且v3≥100这样的条件的文档的评价较高。判定规则14c表示满足v3≥100并且v4≥3这样的条件的文档的评价较高。判定规则14a规定的特征变量v2、v4的条件适合评价对象文档13,并且包含语言特征。由此,选择判定规则14a。判定规则14b规定的特征变量v1、v3的条件不适合评价对象文档13。由此,不选择判定规则14b。判定规则14c规定的特征变量v3、v4的条件适合评价对象文档13,但不包含语言特征。由此,不选择判定规则14c。
处理部12基于选择的判定规则,生成评价对象文档13的评价结果15。作为一个例子,假设仅选择判定规则14a。该情况下,由于判定规则14a示出低评价,所以评价结果15成为低评价。在选择了两个以上的判定规则的情况下,处理部12也可以基于高评价的判定规则的个数与低评价的判定规则的个数的比率,生成评价结果15。另外,在对各判定规则赋予重要度的情况下,处理部12也可以基于高评价的判定规则的重要度与低评价的判定规则的重要度的比率,生成评价结果15。
根据第一实施方式的文档评价装置10,定义混有表示单词的出现状况的特征变量和表示业务的属性的特征变量的特征变量的集合,并使用该特征变量的集合中的一部分或者全部的特征变量制作各判定规则。而且,选择适合评价对象文档13并且包含至少一个表示单词的出现状况的特征变量的判定规则,并基于选择的判定规则生成评价结果15。
由此,能够考虑与评价对象文档13对应的业务的属性,生成评价结果15。由此,与不考虑业务的属性,而仅根据表示单词的出现状况的特征变量生成评价结果15的情况相比,评价结果15的精度提高。另外,通过使用混有表示单词的出现状况的特征变量和表示业务的属性的特征变量的特征变量的集合,也可以不按照每个属性值准备不同的判定规则。由此,能够降低判定规则生成的成本。在通过机械学习生成判定规则的情况下,能够削减为了机械学习而准备的样本文档的量。
另外,若使用上述的特征变量的集合,则在判定规则中也可能存在不包含表示单词的出现状况的特征变量的判定规则。这样的判定规则仅根据业务的属性决定评价,不提供对评价对象文档13的书写方法的评价。对于这一点,通过排除不包含表示单词的出现状况的特征变量的判定规则来生成评价结果15,而评价结果15的精度提高。
[第二实施方式]
接下来,对第二实施方式进行说明。
第二实施方式的文档评价装置通过机械学习生成文档评价用的模型,并使用生成的模型计算评价对象文档的评价值。该文档评价装置既可以是客户端装置,也可以是服务器装置。也能够将该文档评价装置称为计算机、信息处理装置、机械学习装置等。此外,虽然在第二实施方式中,由同一装置进行模型生成和文档评价,但也可以由不同的装置进行。
图2是表示第二实施方式的文档评价装置的硬件例的图。
第二实施方式的文档评价装置100具有CPU101、RAM102、HDD103、图像接口104、输入接口105、介质读取器106以及通信接口107。文档评价装置100具有的这些单元与总线连接。文档评价装置100与第一实施方式的文档评价装置10对应。CPU101与第一实施方式的处理部12对应。RAM102或者HDD103与第一实施方式的存储部11对应。
CPU101是执行程序的命令的处理器。CPU101将存储于HDD103的程序、数据的至少一部分加载到RAM102,并执行程序。CPU101也可以具备多个处理器核心,文档评价装置100也可以具备多个处理器。有时将多个处理器的集合称为“多处理器”或者仅称为“处理器”。
RAM102是暂时存储CPU101执行的程序、CPU101进行运算所使用的数据的易失性半导体存储器。文档评价装置100也可以具备RAM以外的种类的存储器,也可以具备多个存储器。
HDD103是存储OS(Operating System:操作系统)、中间件、应用软件等软件的程序、以及数据的非易失性存储器。文档评价装置100也可以具备闪存、SSD(Solid StateDrive:固盘)等其它种类的存储器,也可以具备多个存储器。
图像接口104根据来自CPU101的命令,向与文档评价装置100连接的显示装置111输出图像。作为显示装置111,能够使用CRT(Cathode Ray Tube:阴极射线管)显示器、液晶显示器(LCD:Liquid Crystal Display)、有机EL(OEL:Organic Electro-Luminescence:有机电致发光)显示器、投影仪等任意的种类的显示装置。也可以在文档评价装置100连接打印机等显示装置111以外的输出设备。
输入接口105从与文档评价装置100连接的输入设备112接受输入信号。作为输入设备112,能够使用鼠标、触摸面板、触摸板、键盘等任意的种类的输入设备。也可以在文档评价装置100连接多种输入设备。
介质读取器106是读取记录介质113所记录的程序、数据的读取装置。作为记录介质113,能够使用软盘(FD:Flexible Disk)或者HDD等磁盘、CD(Compact Disc:激光盘)或者DVD(Digital Versatile Disc:数字多用盘)等光盘、以及半导体存储器等任意的种类的记录介质。介质读取器106例如将从记录介质113读取的程序、数据复印到RAM102、HDD103等其它的记录介质。例如通过CPU101执行所读取的程序。此外,记录介质113也可以是便携式记录介质,有时使用于程序、数据的分发。另外,有时将记录介质113、HDD103称为计算机能够读取的记录介质。
通信接口107与网络114连接,经由网络114与其它的信息处理装置进行通信。通信接口107既可以是与交换机、路由器等有线通信装置连接的有线通信接口,也可以与基站、访问点等无线通信装置连接的无线通信接口。
接下来,对文档的评价进行说明。
文档评价装置100对众包订货单、企划建议书等业务文档进行评价。众包订货单是用于从企业外部广泛地招募工作的接受订货者的订货单,由企业外部的人员阅读。根据众包订货单的书写方法的优劣,既有应募者较多的情况,也有应募者较少的情况。企划建议书是用于在企业内部建议企划的建议书,由研究企划采用与否的企业内部的人员阅读。根据企划建议书的书写方法的优劣,既有采用企划的情况,也有不采用企划的情况。
文档评价装置100通过自然语言解析从评价对象文档提取语言特征,并使用语言特征计算评价值。语言特征主要表示满足特定条件的单词的出现状况。在语言特征中能够包含总字数、总单词数等文档长度。过长的文档有给予读者消极的印象的可能性。另外,在语言特征中能够包含副词数、连词数等特定的词类的出现数。副词、连词过多的文档有难以阅读的可能性,而有给予读者消极的印象的可能性。
另外,在语言特征中能够包含被动态数。被动态过多的文档有模糊度增大而给予消极的印象的可能性。另外,在语言特征中能够包含表示对读者的请求事项的委托表现的数量、表示读者的禁止事项的禁止表现的数量。委托表现、禁止表现过多的文档有业务上的负担增大的可能性,而有给予读者消极的印象的可能性。
但是,评价对象文档的评价并不限定于仅根据语言特征决定,有受到非语言属性的影响的情况。非语言属性是与评价对象文档对应的业务的属性,是单词的出现状况以外的特征量。非语言属性也可以说是表示评价对象文档的使用状况、前提条件。非语言属性既有记载于评价对象文档中的情况,也有记录于外部的业务信息的情况。
在非语言属性中能够包含业务的类型。另外,在非语言属性中能够包含订货价格、预算额等预定金额。即使是委托表现数、禁止表现数相同的文档,也有在大规模业务中没有问题,而另一方面在小规模业务中消极的印象增强的可能性。另外,在非语言属性中能够包含交期、准备期间等预定期间。即使是委托表现数、禁止表现数相同的文档,也有在长交期业务中不成为问题,而另一方面在短交期业务中消极的印象增强的可能性。这样,即使是语言特征相同的评价对象文档,若非语言属性不同,则评价也可能改变。
图3是表示文档的第一例的图。
文档131是众包订货单的例子。文档131包含八个“请”或者“请求”这样的委托表现。另外,较短地设定通过文档131订货的工作的交期。
图4是表示文档的第二例的图。
文档132与文档131相同地是众包订货单的例子。文档132包含七个“请”或者“请参阅”等委托表现。但是,较长地设定通过文档132订货的工作的交期。
这里,假设设定“在委托表现数为5以上的情况下,接受订货变少”这样的判定规则。在该判定规则下,文档131和文档132的接受订货均变少,所以判定为低评价。对于这一点,在文档131中,读者感到尽管交期较短但仍有较多委托事项的可能性较高,评价结果合理。另一方面,在文档132中,本来就是交期较长的大规模业务,所以即使委托事项较多也有读者反而感到指示具体而容易理解的可能性,评价结果不合理。
这样,有根据评价对象文档作为前提的业务的属性,而读者的印象改变的可能性。优选文档评价装置100能够进一步考虑非语言属性来计算评价对象文档的评价值。因此,文档评价装置100在通过机械学习生成模型时,使用语言特征和非语言属性双方作为说明变量。
接下来,对用于机械学习的训练数据的准备进行说明。
图5是表示文档的第三例的图。
文档133是过去制作的众包订货单的例子。在生成用于评价众包订货单的模型时,使用过去制作的多个众包订货单。在众包订货单的评价中,如后述那样,使用长度、副词数、连词数以及禁止表现数作为语言特征。文档133包含“简单”、“尽量”这样的两个副词。另外,文档133包含“但是”、“那么”这样的两个连词。另外,文档133包含“谢绝”、“严禁”以及“请不要”这样的三个禁止表现。
文档评价装置100能够使用词素解析等自然语言处理技术,从文档133提取这些语言特征。例如,文档评价装置100将文档133分割为单词,并参照词典判定各单词的词类。然后,文档评价装置100对副词以及连词的个数进行计数。另外,例如文档评价装置100参照列举了禁止表现的模式的词典,检测禁止表现并进行计数。
图6是表示订货管理表格的例子的图。
订货管理表格141为了管理众包业务,而保存于文档133等众包订货单的外部。在生成用于评价众包订货单的模型时,使用与过去制作的多个众包订货单对应的业务信息。订货管理表格141包含订货ID、类型、订货价格、交期以及接受订货数的项目。
作为订货ID,登记识别众包的标识符。作为类型,登记通过众包委托的工作的种类。作为订货价格,登记对接受订货者支付的预定的报酬的金额。作为交期,登记从工作的订货到成果物的交付期限为止的天数。作为接受订货数,登记最终的接受订货者的人数。在公开众包订货单之前预先决定订货ID、类型、订货价格以及交期。在众包订货单的公开后计算接受订货数。
根据接受订货数决定众包订货单的评价。接受订货数在阈值以上意味着接受订货较多,意味着众包订货单为高评价。接受订货数不足意味着接受订货较少,意味着众包订货单为低评价。阈值预先决定为五件。
图7是表示训练数据表格的第一例的图。
训练数据表格142是在生成用于评价众包订货单的模型时,根据文档133等过去的众包订货单和订货管理表格141生成的训练数据。训练数据表格142包含订货ID、非语言属性、语言特征以及教师标签的项目。作为非语言属性的项目,包含类型、订货价格以及交期的项目。作为语言特征的项目,包含长度、副词数、连词数以及禁止表现数。
订货ID与订货管理表格141的订货ID对应。类型与订货管理表格141的类型对应。订货价格与订货管理表格141的订货价格对应。交期与订货管理表格141的交期对应。文档评价装置100从订货管理表格141提取这些非语言属性。
长度是众包订货单所包含的字数或者单词数。副词数是众包订货单所包含的副词的个数。连词数是众包订货单所包含的连词的个数。禁止表现数是众包订货单所包含的禁止表现的个数。文档评价装置100从众包订货单本身提取这些语言特征。
教师标签是表示接受订货的多寡的标志。在订货管理表格141的接受订货数为阈值以上(例如,五件以上)的情况下,登记表示接受订货较多的教师标签。在订货管理表格141的接受订货数小于阈值的情况下,登记表示接受订货较少的教师标签。教师标签例如是0或者1的数值。表示接受订货较多的教师标签为1。表示接受订货较少的教师标签为0。
图8是表示文档的第四例的图。
文档134是过去制作的企划建议书的例子。在生成用于评价企划建议书的模型时,使用过去制作的多个企划建议书。根据包含建议种类、建议内容、背景、效果、导入时期、业务委托费等标题项目的规定的格式记述企划建议书。这里,假设将建议内容、背景以及效果中所记载的文章作为评价对象。
在企划建议书的评价中,如后述那样,使用长度、副词数、被动态数以及数值表现数作为语言特征。文档134包含“相当”、“非常”等两个副词。另外,文档134包含“被认为”这样的一个被动态。另外,文档134包含“50种”这样的一个数值表现。文档评价装置100能够使用词素解析等自然语言处理技术,从文档134提取这些语言特征。例如,文档评价装置100将文档134分割为单词,参照词典检测副词、被动态以及数值并进行计数。
另外,在企划建议书的评价中,如后述那样,使用类型、预算额以及准备期间作为非语言属性。这些非语言属性记载于文档134中。类型是建议种类的标题项目所记载的业务委托。预算额是业务委托费的标题项目所记载的2000万日元。准备期间是导入时期的标题项目所记载的三个月。文档评价装置100通过预先具有在企划建议书的格式中,非语言属性记载于哪个标题项目的信息,从而能够从文档134自动地提取非语言属性。
但是,在如上述的订货管理表格141那样,在文档134的外部保存业务信息的情况下,也可以从该业务信息提取非语言属性。另外,在位于文档134的外部的业务信息登记企划的采用与否结果。根据该企划的采用与否决定企划建议书的评价。采用企划意味着企划建议书为高评价。不采用企划意味着企划建议书为低评价。
图9是表示训练数据表格的第二例的图。
训练数据表格143是在生成用于评价企划建议书的模型时,根据文档134等过去的企划建议书和企划的采用与否结果生成的训练数据。训练数据表格143包含建议ID、非语言属性、语言特征以及教师标签的项目。作为非语言属性的项目,包含类型、预算额以及准备期间的项目。作为语言特征的项目,包含长度、副词数、被动态数以及数值表现数。
建议ID是识别企划建议的标识符。类型与企划建议书所记载的建议种类对应。预算额是企划建议书所记载的预定金额。准备期间是企划建议书所记载的预定期间。长度是企划建议书所包含的评价对象部分的字数或者单词数。副词数是企划建议书的评价对象部分所包含的副词的个数。被动态数是企划建议书的评价对象部分所包含的被动态表现的个数。数值表现数是企划建议书的评价对象部分所包含的数值表现的个数。文档评价装置100从企划建议书提取这些非语言属性以及语言特征。教师标签是表示企划的采用与否的标志。教师标签例如为0或者1的数值。表示采用的教师标签为1。表示不采用的教师标签为0。
接下来,对根据训练数据生成模型的机械学习进行说明。以下,将与众包订货单相关的训练数据表格142作为前提来进行说明。
图10是表示假设表格的例子的图。
假设表格144表示通过机械学习生成的模型。在假设表格144登记有表示多个假设的多个记录。也有将假设称为组块或者规则的情况。多个假设分别包含假定部和结论部。
假定部表示包含语言特征以及非语言属性的说明变量的集合中的一个以上的说明变量应该满足的条件。根据假设,假定部既有仅包含一个说明变量的情况,也有包含两个以上的说明变量的情况。另外,根据假设,假定部既有仅包含语言特征的情况,也可以仅包含非语言属性的情况,也有包含语言特征和非语言属性双方的情况。在许多的假设中,假定部包含两个以上的说明变量,其中混有语言特征和非语言属性双方。
结论部是表示文档的评价结果的目的变量。结论部表示对适合假定部的文档的评价结果的估计。评价结果是表示文档的优劣的标志。在众包订货单的情况下,评价结果是接受订货较多或者接受订货较少的二选一。在假设表格144中,分别对多个假设赋予重要度。重要度越大,表示假设的有效性越高。
作为一个例子,登记在类型为博客文章制作,且连词在两个以下的情况下,接受订货较多(高评价)这样的假设,其重要度为0.85。另外,登记在类型为博客文章制作,交期在两天以下,且禁止表现在四个以上的情况下,接受订货较少(低评价)这样的假设,其重要度为0.80。另外,登记在类型为数据收集,订货价格在100日元以下,且长度在250以上的情况下,接受订货较少这样的假设,其重要度为0.70。另外,登记在类型为数据收集,交期在两天以下,且连词在五个以上的情况下,接受订货较多这样的假设,其重要度为0.65。另外,登记在类型为博客文章制作,且订货价格在100日元以上的情况下,接受订货较多这样的假设,其重要度为0.50。
能够通过作为机械学习算法之一的Wide Learning(注册商标),根据训练数据表格142生成这样的假设表格144。以下,对基于Wide Learning的模型生成进行说明。
在Wide Learning中,网罗性地生成在几个说明变量的值的组合与目的变量的值之间有成立的可能性的假设(组块),并基于训练数据从这些许多的假设中采用可靠性较高的假设。采用的假设的集合成为模型。假设是根据说明变量的值导出目的变量的值的含意的逻辑命题。
训练数据所包含的样本中的、假设的假定部所规定的说明变量的值一致,并且假设的结论部所规定的目的变量的值一致的样本的数量是该假设的命中数。命中数越多的假设可以说可靠性越高。另外,假设的假定部所规定的说明变量的值一致的样本中的、假设的结论部所规定的目的变量的值一致的样本的比例是该假设的命中率。命中率越高的假设可以说可靠性越高。为了提高模型的通用性而抑制过学习,优选将一个假设所包含的说明变量的个数限制在阈值以下。另外,优选采用命中数在阈值以上并且命中率在阈值以上的假设。
在Wide Learning中,列举多个说明变量各自的可取的值以及目的变量的可取的值。在金额那样的取连续值的说明变量中,将整个值域分割为多个区间,并使用区间作为说明变量的候补值。也可以如100日元宽度那样以固定宽度设定区间。另外,也可以基于说明变量的值的分布动态地设定区间,以尽可能均衡地将训练数据所包含的样本分配给多个区间。接下来,从多个说明变量中选择阈值以下的个数的说明变量。例如,选择一个以上三个以下的说明变量。然后,通过从选择的各说明变量选择一个值,并从目的变量选择一个值,来生成一个假设。通过网罗性地进行说明变量的选择以及值的选择,网罗性地生成各种假设。
从这些假设中,例如采用命中数在阈值以上并且命中率在阈值以上的假设作为有效的假设。但是,也可以全部采用命中数在阈值以上的假设,也可以全部采用命中率在阈值以上的假设。另外,也可以不设置命中数、命中率的阈值,而按照命中数、命中率从高到低的顺序采用规定量的假设。
分别对采用的假设计算重要度。作为重要度,使用通过以下进行说明的逻辑回归分析计算出的权重。但是,也能够使用命中数或者命中率作为重要度。
如公式(1)所示,使用S型(Sigmoid)函数对训练数据所包含的样本x计算概率p(x)。概率p(x)是比0大且比1小的实数。概率p(x)相当于样本x的目的变量的估计值。概率p(x)越接近1,表示目的变量的值为1(例如,接受订货较多)的可能性越高,概率p(x)越接近0,表示目的变量的值为0(例如,接受订货较少)的可能性越高。α是作为常数项的系数,βi是作为第i个假设的权重的系数,chunki(x)是对样本x的第i个假设的输出。
[式1]
Figure BDA0003797799290000131
在第i个假设的假定部和样本x的说明变量的值不适合的情况下,chunki(x)输出0。该情况下,第i个假设与样本x无关,不对概率p(x)造成影响。在第i个假设的假定部和样本x的说明变量的值适合的情况下,chunki(x)输出1或者-1。在第i个假设的结论部为1(例如,接受订货较多)的情况下,chunki(x)输出1。在第i个假设的结论部为0(例如,接受订货较少)的情况下,chunki(x)输出-1。
chunki(x)的线性和越大,与样本x有关的假设的越多将目的变量的值估计为1。chunki(x)的线性和越小,与样本x有关的假设的越多将目的变量的值估计为0。但是,通过改变系数α、βi而概率p(x)变化。概率p(x)与样本x的目的变量的真值之间的差为误差。因此,通过回归分析,将系数α、βi决定为训练数据所包含的多个样本的误差的合计最小。这样决定的系数βi成为第i个假设的重要度。
接下来,对使用了模型的文档评价的方法进行说明。
图11是表示文档的第五例的图。
文档135是评价对象的众包订货单的例子。文档135包含“尽量”、“务必”、“只是”、“并且”这样的四个副词。另外,文档135包含“另外”、“所以”这样的两个连词。另外,文档135包含“谢绝”、“不可”、“严禁”、“禁止”、“请停止”、“请不要”这样的六个禁止表现。另外,在订货管理表格141登记与文档135对应的业务信息。根据该业务信息,类型为博客文章制作,订货价格为150日元,交期为一天。
图12是表示特征数据的例子的图。
文档评价装置100根据登记于上述的文档135和订货管理表格141的业务信息,生成特征数据145。特征数据145包含订货ID、非语言属性以及语言特征。非语言属性包含类型、订货价格以及交期。语言特征包含长度、副词数、连词数以及禁止表现数。从订货管理表格141提取订货ID、类型、订货价格以及交期。通过自然语言处理技术从文档135提取长度、副词数、连词数以及禁止表现数。
图13是表示与评价对象文档匹配的假设的选择例的图。
文档评价装置100从假设表格144检索能够应用于特征数据145的假设。这里,文档评价装置100对登记于假设表格144的各假设,判定特征数据145是否满足假定部所规定的条件,并提取具有适合的假定部的假设。但是,文档评价装置100在假定部仅包含非语言属性而不包含任何一个语言特征的情况下,排除具有该假定部的假设。即,文档评价装置100选择特征数据145满足假定部所规定的条件,并且,假定部包含至少一个语言特征的假设。
作为一个例子,对于假设表格144的第一个假设来说,假定部适合特征数据145,并且,包含作为语言特征的连词数所以选择。对于第二个假设来说,假定部适合特征数据145,并且,包含作为语言特征的禁止表现数所以选择。对于第三个假设来说,假定部不适合特征数据145所以不选择。对于第四个假设来说,假定部不适合特征数据145所以不选择。对于第五个假设来说,假定部适合特征数据145,但不包含语言特征所以不选择。由此,选择假设表格144的第一个假设和第二个假设。
图14是表示评价值的计算例的图。
文档评价装置100使用从假设表格144选择的假设的重要度,计算评价对象文档亦即文档135的评价值。此时,文档评价装置100基于特征数据145中的语言特征,修正重要度。
具体而言,文档评价装置100从假设的假定部检测语言特征的条件,在语言特征的条件使用阈值的情况下提取其阈值。提取的阈值是语言特征的值在阈值以上、语言特征的值超过阈值、语言特征的值在阈值以下、语言特征的值小于阈值这样的条件中的该阈值。文档评价装置100将相对于提取出的阈值的特征数据145的语言特征的值的比率作为修正系数,将对原来的重要度乘以修正系数后的值作为修正重要度。
这里,将从假设表格144选择的第一个假设设为假设144a,并将选择的第二个假设设为假设144b。假设144a的假定部包含连词数在两个以下这样的语言特征的条件。特征数据145示出的连词数为两个。由此,修正系数为2/2=1,假设144a的修正重要度为0.85×1=0.85。另外,假设144b的假定部包含禁止表现数在四个以上这样的语言特征的条件。特征数据145示出的禁止表现数为六个。由此,修正系数为6/4=1.5,假设144b的修正重要度成为0.80×1.5=1.20。
此外,上述的重要度修正方法以值越小越优选,值越大越不优选的语言特征为前提。语言特征的值越比阈值大,估计为该语言特征给予评价结果的影响越大。因此,修正被为重要度提高。但是,上述的重要度修正方法是一个例子,也可以使用其它的修正方法。例如,对于值越大越优选,值越小越不优选的语言特征,也能够将上述的修正系数的分子与分母调换。由此,语言特征的值越比阈值小,越修正被为重要度提高。
文档评价装置100基于选择出的假设的修正重要度,计算评价对象文档亦即文档135的评价值146。具体而言,文档评价装置100将选择出的假设分类为结论部积极(例如,接受订货较多)的假设、和结论部消极(例如,接受订货较少)的假设。文档评价装置100计算将积极的假设的修正重要度相加后的合计重要度Fpos、和将消极的假设的修正重要度相加后的合计重要度Fneg。文档评价装置100计算相对于整体的合计重要度的积极的假设的合计重要度的比率,即Fpos/(Fpos+Fneg),作为评价值146。
这里,假设144a是积极的假设,假设144b是消极的假设。由此,Fpos=0.85并且Fneg=1.20,评价值146被计算为0.85/(0.85+1.20)=41.4%。评价值146表示能够通过文档135获得许多的接受订货(例如,五个以上的接受订货)的概率。此外,上述的评价值计算方法为一个例子,也可以使用其它的计算方法。
图15是表示增删画面的例子的图。
文档评价装置100选择结论部消极的假设,并提取消极的假设的假定部所包含的语言特征。该语言特征成为降低文档135的评价值146的原因的可能性较高。因此,文档评价装置100从文档135检索符合提取出的语言特征的单词并进行高亮显示。在语言特征为副词数的情况下,对文档135所包含的副词进行高亮显示。在语言特征为连词数的情况下,对文档135所包含的连词进行高亮显示。在语言特征为禁止表现数的情况下,对文档135所包含的禁止表现进行高亮显示。另外,文档评价装置100生成与提取出的语言特征对应的评价注释。
文档评价装置100生成增删画面136并显示于显示装置111。增删画面136包含评价值146、评价注释以及对一部分的单词进行了高亮显示的文档135。作为一个例子,消极的假设144b包含禁止表现数在四个以上这样的语言特征的条件。禁止表现较多成为降低评价值146的原因的可能性较高。因此,生成推荐禁止表现的削减的评价注释。另外,对文档135中的六个禁止表现进行高亮显示来进行强调。这样,通过文档评价装置100对文档135进行增删。文档评价装置100的用户能够接受增删画面136,并将文档135修正为接受订货增加。
接下来,对文档评价装置100的功能进行说明。
图16是表示文档评价装置的功能例的框图。
文档评价装置100具有文档存储部121、业务信息存储部122以及模型存储部123。例如,使用RAM102或者HDD103的存储区域实现这些存储部。另外,文档评价装置100具有训练数据生成部124、机械学习部125、特征提取部126、评价部127以及增删部128。例如,使用CPU101执行的程序实现这些处理部。
文档存储部121存储文档133等过去的文档。另外,文档存储部121存储文档135等评价对象文档。业务信息存储部122存储订货管理表格141等业务管理用表格。在业务管理用表格登记有与过去的文档对应的业务信息、和与评价对象文档对应的业务信息。在业务信息包含有接受订货数等业务结果,有包含非语言属性的情况。模型存储部123存储假设表格144,作为通过机械学习生成的模型。假设表格144包含多个假设和这些假设的重要度。
训练数据生成部124生成训练数据表格142等训练数据。此时,训练数据生成部124从存储于文档存储部121的过去的文档提取语言特征。另外,训练数据生成部124从该文档或者与其对应的业务信息存储部122所存储的业务信息提取非语言属性。另外,训练数据生成部124从业务信息提取业务的标识符以及业务结果,并基于业务结果生成表示文档的优劣的教师标签。
机械学习部125根据训练数据生成部124生成的训练数据,通过机械学习生成假设表格144,并保存于模型存储部123。作为机械学习,例如使用Wide Learning。机械学习部125从包含语言特征以及非语言属性的说明变量的集合选择说明变量的组合,并网罗性地生成将这些说明变量的值与目的变量亦即教师标签的值建立对应关系的假设。机械学习部125基于命中数、命中率来锁定有效的假设。然后,机械学习部125计算锁定的有效的假设各自的重要度。
特征提取部126从文档存储部121所存储的评价对象文档提取语言特征。另外,特征提取部126根据评价对象文档或者与其对应的业务信息存储部122所存储的业务信息提取非语言属性。特征提取部126生成包含语言特征和非语言属性的特征数据145。
评价部127使用特征提取部126生成的特征数据145、和存储于模型存储部123的假设表格144,计算评价对象文档的评价值146。此时,评价部127选择假定部适合特征数据145,并且,假定部包含语言特征的假设。评价部127对选择的假设所包含的语言特征的条件与特征数据145进行比较,修正选择的假设的重要度。评价部127根据修正重要度计算评价值146。
增删部128根据评价部127选择的假设中消极的假设所包含的语言特征,生成建议评价对象文档的修正方针的评价注释。另外,增删部128对评价对象文档中符合该语言特征的单词进行高亮显示。增删部128生成包含评价值146、评价注释以及评价对象文档的增删画面136,并显示于显示装置111。此外,增删部128也可以将增删画面136所包含的信息保存于HDD103等非易失性存储器,也可以输出到打印机等其它的输出设备,也可以发送给其它的信息处理装置。
接下来,对文档评价装置100的处理顺序进行说明。
图17是表示模型生成的顺序例的流程图。
(S10)训练数据生成部124从业务信息存储部122所存储的业务信息选择一个业务标识符。训练数据生成部124将文档存储部121所存储的文档中与选择的业务标识符对应的一个文档选择为学习用。
(S11)训练数据生成部124使用词素解析等自然语言处理技术,对选择的文档所包含的单词进行解析,提取副词数、连词数、委托表现数、禁止表现数、被动态数、数值表现数等语言特征。在特定的词类的检测、特定的表现的检测时,训练数据生成部124也可以参照词典。
(S12)训练数据生成部124从选择的文档本身或者位于文档的外部的业务信息,提取业务类型、预定金额、预定期间等非语言属性。在从文档本身提取非语言属性的情况下,训练数据生成部124能够从格式中的特定的标题项目提取特定的非语言属性。
(S13)训练数据生成部124参照与选择的文档对应的业务信息,生成表示选择的文档的评价的教师标签。教师标签是表示是高评价(1)还是低评价(0)的标志。训练数据生成部124能够根据接受订货数、企划采用与否等业务结果的优劣,生成教师标签。
(S14)训练数据生成部124分别将在步骤S11提取出的语言特征和在步骤S12提取出的非语言属性作为说明变量,并将在步骤S13生成的教师标签作为目的变量。训练数据生成部124在训练数据追加将多个说明变量的值与目的变量的值建立了对应关系的记录(样本)。
(S15)训练数据生成部124判断是否在步骤S10中,选择了全部的业务标识符,即是否选择了文档存储部121所存储的文档的全部。在选择了全部的情况下进入步骤S16,在其以外的情况下返回到步骤S10。
图18是表示模型生成的顺序例的流程图(续)。
(S16)机械学习部125参照训练数据,列举多个说明变量以及目的变量各自的可取的值。此时,机械学习部125对于可取的值不为少数的离散值的说明变量,将该说明变量的值域分割为多个区间,并使用各区间作为以后的“说明变量的值”。在成为对象的说明变量包含有取连续值的说明变量、和虽然取离散值但存在许多可取值的说明变量。
(S17)机械学习部125从多个说明变量中选择一个规定个以下的说明变量的组合。机械学习部125选择一个说明变量各自的值与目的变量的值的组合,生成一个假设。假设的假定部表示说明变量的值的条件,假设的结论部表示目的变量的值。
(S18)机械学习部125从训练数据中检索具有与在步骤S17生成的假设的假定部所规定的条件一致的说明变量的值的样本。
(S19)机械学习部125判断是否在步骤S18检索出的各样本的目的变量的值与在步骤S17生成的假设的结论部一致。机械学习部125计算与假设的假定部和结论部双方一致的样本的个数作为命中数。另外,机械学习部125计算上述的命中数相对于与假设的假定部一致的样本的个数的比例作为命中率。
(S20)机械学习部125判断是否命中数在阈值以上并且命中率在阈值以上。命中数的阈值预先决定为十个等,命中率的阈值预先决定为80%等。在满足条件的情况下进入步骤S21,在不满足条件的情况下进入步骤S22。此外,也可以仅判定命中数和命中率的任意一方。
(S21)机械学习部125采用在步骤S17生成的假设作为有效的假设。此外,在步骤S20的判定为否的情况下,不采用该假设。
(S22)机械学习部125判断是否在步骤S17中,网罗性地选择了全部的说明变量的组合以及全部的值的组合。在网罗性地选择的情况下进入步骤S23,在其以外的情况下返回到步骤S17。
(S23)机械学习部125分别对训练数据所包含的多个样本,特定在步骤S21采用的假设中样本的说明变量的值与假定部所规定的条件一致的假设。
(S24)机械学习部125通过公式(1)所示的逻辑回归分析,基于步骤S23的信息,计算应用于各假设的权重系数。机械学习部125采用该权重系数作为假设的重要度。
(S25)机械学习部125将在步骤S21采用的假设与在步骤S24计算出的重要度建立对应关系,并登记于假设表格144。机械学习部125按照重要度的降序对登记于假设表格144的假设进行排序。然后,机械学习部125将生成的假设表格144保存于模型存储部123。
图19是表示文档评价的顺序例的流程图。
(S30)特征提取部126从文档存储部121获取评价对象文档。也可以通过来自用户的输入指示评价对象文档。
(S31)特征提取部126对评价对象文档所包含的单词进行解析,提取副词数、连词数、委托表现数、禁止表现数、被动态数、数值表现数等语言特征。
(S32)特征提取部126从评价对象文档本身或者位于其外部的业务信息提取业务类型、预定金额、预定期间等非语言属性。从业务信息存储部122获取与评价对象文档对应的业务信息。特征提取部126生成包含语言特征和非语言属性的特征数据145。
(S33)评价部127从存储于模型存储部123的假设表格144检索特征数据145的说明变量的值与假定部所规定的条件一致的假设。
(S34)评价部127排除在步骤S33检索出的假设中在假定部不包含语言特征的假设(假定部仅包含非语言属性的假设)。
(S35)评价部127选择一个未排除而留下的假设。
(S36)评价部127从选择的假设的假定部提取语言特征的阈值。
(S37)评价部127从假设表格144读出选择的假设的重要度。评价部127对在步骤S36提取出的阈值与特征数据145所包含的语言特征的值进行比较,计算修正系数,并对重要度乘以修正系数计算修正重要度。修正系数例如是特征数据145的值相对于阈值的比率。
(S38)评价部127判断是否在步骤S35中选择了全部的假设。在选择了全部的情况下进入步骤S39,在其以外的情况下返回到步骤S35。
图20是表示文档评价的顺序例的流程图(续)。
(S39)评价部127将留下的假设分类为结论部积极(1)的假设和结论部消极(0)的假设。积极的假设表示接受订货较多、采用了企划等评价较高的假设。消极的假设是表示接受订货较少、不采用企划等评价较低的假设。
(S40)评价部127计算将积极的假设的修正重要度相加后的合计重要度Fpos、和将消极的假设的修正重要度相加后的合计重要度Fneg。评价部127根据合计重要度Fpos与合计重要度Fneg的比率,计算评价值146。例如,评价值146为Fpos/(Fpos+Fneg)。
(S41)增删部128选择一个结论部消极的假设。
(S42)增删部128从选择的假设的假定部提取语言特征的条件。
(S43)增删部128生成与在步骤S42提取的条件对应的评价注释。例如,对于某一语言特征的值在阈值以上这样的条件,增删部128指出若该语言特征的单词较多则有评价降低的可能性。
(S44)增删部128从评价对象文档检索符合上述的条件的单词。例如,在语言特征为连词数的情况下,增删部128检索连词。
(S45)增删部128判断是否在步骤S41中,选择了结论部消极的假设的全部。在选择了全部的情况下进入步骤S46,在其以外的情况下返回到步骤S41。
(S46)增删部128生成包含在步骤S40计算出的评价值146、在步骤S43生成的评价注释、以及对在步骤S44检索出的单词进行高亮显示的评价对象文档的增删画面136,并使其显示于显示装置111。
根据第二实施方式的文档评价装置100,定义混有语言特征和非语言属性的说明变量的集合,根据与业务相关的过去的文档,生成将说明变量的值与表示评价的优劣的目的变量的值建立了对应关系的训练数据。使用该训练数据,通过机械学习,生成包含具有几个说明变量的值的组合作为假定部且具有评价的优劣作为结论部的多个假设的模型。然后,选择生成的多个假设中能够应用于评价对象文档,并且,在假定部包含至少一个语言特征的假设,并使用选择的假设计算评价值。
由此,能够考虑评价对象文档的非语言属性计算评价值,与使用在说明变量不包含非语言属性的模型的情况相比,评价值的精度提高。另外,通过使用混有语言特征和非语言属性的说明变量的集合,可以不对每个非语言属性的值生成独立的模型。因此,能够降低基于机械学习的模型生成的成本。特别是,能够削减准备的学习用文档的量。另外,排除在假定部不包含语言特征的假设来计算评价值。因此,能够排除不依据文档的书写方法而仅根据业务的性质决定评价那样的不适于评价对象文档的评价的假设,而评价值的精度提高。
另外,从文档本身或者与文档建立对应关系的外部的业务信息自动地提取非语言属性。另外,基于与文档建立对应关系的外部的业务信息自动地生成教师标签。由此,能够容易地生成训练数据。另外,根据评价对象文档的语言特征在何种程度偏离假设的假定部所规定的允许范围,来修正由模型定义的重要度。由此,能够强调评价对象文档的不优选的侧面,而评价值的精度提高。
另外,作为评价值,不计算高评价和低评价的两个阶段,而计算0%以上100%以下的数值。由此,用户容易理解评价对象文档的书写方法能够给予业务结果何种程度的影响。另外,在评价对象文档中,对符合成为降低评价值的原因的语言特征的单词进行强调显示。由此,用户容易将评价对象文档修正为评价值提高。
上述仅示出本发明的原理。并且,对于本领域技术人员来说能够进行许多的变形、变更,本发明并不限定于上述所示并进行了说明的正确的构成以及应用例,对应的全部的变形例以及均等物视为基于所附的权利要求及其均等物的本发明的范围。
附图标记说明:10…文档评价装置,11…存储部,12…处理部,13…评价对象文档,14a、14b、14c…判定规则,15…评价结果。

Claims (10)

1.一种文档评价程序,其中,使计算机执行以下处理:
获取分别将多个特征变量中的一个以上的特征变量的值的条件与文档的评价结果建立了对应关系的多个判定规则,上述多个特征变量包含表示文档中的单词的出现状况的一个以上的第一特征变量和表示与文档对应的业务的属性的一个以上的第二特征变量;
计算与评价对象文档对应的上述多个特征变量的值,选择上述多个判定规则中的、上述条件适合上述评价对象文档的上述计算的值并且上述条件包含至少一个第一特征变量的判定规则;以及
基于上述选择的判定规则,生成上述评价对象文档的评价结果。
2.根据权利要求1所述的文档评价程序,其中,
上述一个以上的第一特征变量包含表示文档所包含的规定种类的单词的个数的特征变量,上述一个以上的第二特征变量包含表示与文档对应的业务的预定金额的特征变量以及表示预定期间的特征变量中的至少一个。
3.根据权利要求1所述的文档评价程序,其中,
在与上述评价对象文档对应的上述多个特征变量的值的计算中,通过对上述评价对象文档进行解析,来计算上述一个以上的第一特征变量的值,通过参照上述评价对象文档的外部的业务信息,来计算上述一个以上的第二特征变量的值。
4.根据权利要求1所述的文档评价程序,其中,
上述选择的判定规则的上述条件表示上述至少一个第一特征变量的值的条件与至少一个第二特征变量的值的条件的组合。
5.根据权利要求1所述的文档评价程序,其中,
分别对上述多个判定规则赋予重要度,
在上述评价对象文档的评价结果的生成中,使用对上述选择的判定规则赋予的上述重要度计算评价值,并且将上述评价值包含于上述评价对象文档的评价结果。
6.根据权利要求5所述的文档评价程序,其中,
在上述评价对象文档的评价结果的生成中,从上述选择的判定规则的上述条件提取上述至少一个第一特征变量的阈值,基于上述评价对象文档的上述至少一个第一特征变量的值和上述阈值修正对上述选择的判定规则赋予的上述重要度,并且使用进行了上述修正的重要度计算上述评价值。
7.根据权利要求1所述的文档评价程序,其中,
在上述评价对象文档的评价结果的生成中,从上述评价对象文档检索符合上述至少一个第一特征变量的单词,并且使上述检索的单词强调显示。
8.根据权利要求1所述的文档评价程序,其中,
进一步使上述计算机执行以下处理:
根据多个样本文档生成包含多个记录的训练数据,上述多个记录分别包含上述多个特征变量的值和表示评价结果的教师标签;以及
根据上述训练数据,对上述多个特征变量的子集与上述教师标签之间的相关关系进行分析,生成上述多个判定规则。
9.一种文档评价方法,其中,计算机进行以下处理:
获取分别将多个特征变量中的一个以上的特征变量的值的条件与文档的评价结果建立了对应关系的多个判定规则,上述多个特征变量包含表示文档中的单词的出现状况的一个以上的第一特征变量和表示与文档对应的业务的属性的一个以上的第二特征变量;
计算与评价对象文档对应的上述多个特征变量的值,选择上述多个判定规则中的、上述条件适合上述评价对象文档的上述计算的值并且上述条件包含至少一个第一特征变量的判定规则;以及
基于上述选择的判定规则,生成上述评价对象文档的评价结果。
10.一种文档评价装置,其中,具有:
存储部,存储分别将多个特征变量中的一个以上的特征变量的值的条件与文档的评价结果建立了对应关系的多个判定规则,并且存储评价对象文档,上述多个特征变量包含表示文档中的单词的出现状况的一个以上的第一特征变量和表示与文档对应的业务的属性的一个以上的第二特征变量;以及
处理部,计算与上述评价对象文档对应的上述多个特征变量的值,选择上述多个判定规则中的、上述条件适合上述评价对象文档的上述计算的值并且上述条件包含至少一个第一特征变量的判定规则,并且基于上述选择的判定规则,生成上述评价对象文档的评价结果。
CN202080096614.8A 2020-03-05 2020-03-05 文档评价程序、文档评价方法以及文档评价装置 Pending CN115104112A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/009412 WO2021176648A1 (ja) 2020-03-05 2020-03-05 文書評価プログラム、文書評価方法および文書評価装置

Publications (1)

Publication Number Publication Date
CN115104112A true CN115104112A (zh) 2022-09-23

Family

ID=77613138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080096614.8A Pending CN115104112A (zh) 2020-03-05 2020-03-05 文档评价程序、文档评价方法以及文档评价装置

Country Status (5)

Country Link
US (1) US20220366346A1 (zh)
EP (1) EP4116898A4 (zh)
JP (1) JP7356065B2 (zh)
CN (1) CN115104112A (zh)
WO (1) WO2021176648A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835902B2 (en) * 2004-10-20 2010-11-16 Microsoft Corporation Technique for document editorial quality assessment
JP4421502B2 (ja) * 2005-03-25 2010-02-24 株式会社東芝 文書管理システム
US20080306784A1 (en) * 2007-06-05 2008-12-11 Vijay Rajkumar Computer-implemented methods and systems for analyzing clauses of contracts and other business documents
US8793249B2 (en) * 2008-09-24 2014-07-29 Yahoo! Inc. Optimization filters for user generated content searches
JP5032600B2 (ja) * 2010-01-07 2012-09-26 株式会社東芝 文書可読性評価プログラムおよび文書可読性評価装置
JP2015184723A (ja) * 2014-03-20 2015-10-22 株式会社日立システムズ 文書作成支援システム
US20150347390A1 (en) * 2014-05-30 2015-12-03 Vavni, Inc. Compliance Standards Metadata Generation
JP2017010249A (ja) 2015-06-22 2017-01-12 日本電信電話株式会社 パラメタ学習装置、文類似度算出装置、方法、及びプログラム
JP7089952B2 (ja) * 2018-06-15 2022-06-23 株式会社Pfu 文書管理システム、文書管理方法、及びプログラム

Also Published As

Publication number Publication date
US20220366346A1 (en) 2022-11-17
JP7356065B2 (ja) 2023-10-04
WO2021176648A1 (ja) 2021-09-10
EP4116898A1 (en) 2023-01-11
EP4116898A4 (en) 2023-04-19
JPWO2021176648A1 (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
US20190228064A1 (en) Generation apparatus, generation method, and program
US8027977B2 (en) Recommending content using discriminatively trained document similarity
CN112347229B (zh) 一种答案抽取方法、装置、计算机设备及存储介质
US7720849B2 (en) Information processing device, information processing method, program, and recording medium
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
US20200334326A1 (en) Architectures for modeling comment and edit relations
Jerzak et al. An improved method of automated nonparametric content analysis for social science
RU2765884C2 (ru) Идентификация блоков связанных слов в документах сложной структуры
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN114003726B (zh) 一种基于子空间嵌入的学术论文差异性分析方法
CN111695054A (zh) 文本处理方法及设备、信息抽取方法及系统、介质
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
Yuan et al. Personalized sentence generation using generative adversarial networks with author-specific word usage
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN115104112A (zh) 文档评价程序、文档评价方法以及文档评价装置
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
CN111798214B (zh) 职位技能标签生成系统及方法
CN113571198A (zh) 转化率预测方法、装置、设备及存储介质
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
Prabhune et al. FIF: a NLP-based feature identification framework for data warehouses
CN110598209A (zh) 用于提取关键词的方法、系统及存储介质
JP2003256462A (ja) コード化システムおよびコード化プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination