CN115809361A

CN115809361A - 文档检索支援系统、方法及存储有程序的计算机可读介质

Info

Publication number: CN115809361A
Application number: CN202211088438.0A
Authority: CN
Inventors: 寺田万理; 粕渊清孝; 吉田明子; 梅原光规; 角谷祐辉
Original assignee: Screen Holdings Co Ltd
Current assignee: Screen Holdings Co Ltd
Priority date: 2021-09-14
Filing date: 2022-09-07
Publication date: 2023-03-17
Also published as: US20230083617A1; EP4148598A1; JP2023042480A

Abstract

本发明由训练数据获取部获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据。通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用所获取的训练数据，由构建部构建用于推定应该对文档文件分配的标签信息的标签推定模型。使用所构建的标签推定模型，由分配部对作为检索对象的多个文档文件分别分配标签信息。

Description

文档检索支援系统、方法及存储有程序的计算机可读介质

技术领域

本发明涉及支援文档的检索的文档检索支援系统、文档检索支援方法以及存储有文档检索支援程序的计算机可读介质(Non-transitory computer readable medium)。

背景技术

近年来，在互联网等中，电子化的文档被用于获取各种信息。使用者通过检索所希望的标签信息，能够选择并利用被分配了该标签信息的文档。

例如，在日本特开2018-195222号公报中记载的文档检索学习系统中，将由电子文档阅读器读入的内容显示在内容显示部上。当使用者利用鼠标等拖动选择内容内的字符串并点击检索按钮时，所选择的字符串被传送到搜索引擎。由此，通过互联网检索与所选择的字符串相关联的文档，并将检索结果的列表显示在WEB浏览器显示部上。

为了能够进行文档的检索，需要事先对作为检索对象的文档分配标签信息。然而，由于作为检索对象的文档数量庞大，因此进行标签信息的分配的作业者的负担较大。另外，标签信息的名称(label)并不限定于是统一的，大多根据每个作业者的不同而不同。因此，标签信息的分配、维护或整合会产生很大的成本。另外，在新创建的文档能够被检索之前需要相当长的时间。

也考虑使用AI(人工智能)推定文档的标签信息并自动分配。然而，在训练数据的数量不充足的情况下，无法以较高的精度推定标签信息。因此，为了使用AI对文档分配标签信息，需要大量的训练数据。因此，为了创建大量的训练数据，会产生很大的成本。

发明内容

本发明的目的在于，提供能够在抑制成本的增加的同时进行文档的检索的文档检索支援系统、文档检索支援方法以及存储有文档检索支援程序的计算机可读介质。

(1)本发明的一个方面的文档检索支援系统具有：训练数据获取部，获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据；构建部，通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用由训练数据获取部获取的训练数据，构建用于推定应分配给文档文件的标签信息的标签推定模型；以及分配部，使用由构建部构建的标签推定模型，对作为检索对象的多个文档文件分别分配标签信息。

在该文档检索支援系统中，由于在Transformer型的机器学习模型中使用语料库预先进行学习，因此即使在训练数据数量较少的情况下，也能构建能够高精度地推定标签信息的标签信息推定模型。在该情况下，不需要获取大量的训练数据。因此，使用将作为检索对象的多个文档文件的一部分而不是全部的文档文件作为训练数据而构建的标签信息推定模型，从而能够对作为检索对象的多个文档文件分别分配标签信息。

根据该结构，使用者不需要进行对庞大数量的文档文件分配标签信息的作业。另外，在标签信息的标签中没有表现波动。因此，标签信息的分配、维护或者整合几乎不产生成本。由此，能够在抑制成本的增加的同时进行文档的检索。另外，由于也能够对新创建的文档文件立即分配标签信息，因此也能够立即对新创建的文档文件进行检索。

(2)训练数据表示作为解释变量的文档文件的内容与作为目标变量的分配给文档文件的标签信息之间的关系，标签推定模型也可以是通过Transformer型的机器学习模型基于训练数据学习文档文件的内容与对文档文件分配的标签信息之间的关系来构建的。在该情况下，能够容易地构建标签推定模型。

(3)Transformer型的机器学习模型也可以是BERT(Bidirectional EncoderRepresentations from Transformers)。在该情况下，能够使机器学习模型容易地进行使用了语料库的学习。

(4)文档检索支援系统还具有：创建部，创建标签信息一览表，该标签信息一览表表示应分配给作为检索对象的多个文档文件的标签信息的候补的列表；以及提取部，从作为检索对象的多个文档文件中提取一部分的文档文件，训练数据获取部也可以将由创建部创建的标签信息一览表中的任意一个标签信息分配给由提取部提取的一部分的文档文件，从而生成训练数据。在该情况下，能够根据从作为检索对象的多个文档文件中提取的一部分的文档文件容易地生成训练数据。

(5)文档检索支援系统还可以具有：检索部，在由分配部对作为检索对象的多个文档文件分别分配了标签信息之后，接受字符串的输入，从作为检索对象的多个文档文件中检索与字符串匹配的文档文件，输出示出检索结果的结果画面。在该情况下，使用者通过输入所希望的字符串，能够容易地利用与该字符串匹配的文档文件。

(6)由检索部输出的结果画面还显示与所检索的文档文件相关联的能够访问的标签信息，检索部也可以检索被分配了显示在结果画面上的标签信息中的由使用者选择的标签信息的文档文件，并输出示出检索结果的结果画面。在该情况下，使用者通过选择显示在结果画面上的所希望的标签信息，能够容易地利用被分配了该标签信息的文档文件。

(7)能够访问的标签信息也可以包括被分配由检索部检索的文档文件的标签信息和与该标签信息属于同一层级的标签信息的候补。在该情况下，能够访问的标签信息能够容易地显示在结果画面上。

(8)文档检索支援系统还具有：接受部，接受对分配给作为检索对象的多个文档文件中的任意一个文档文件的标签信息进行编辑的指示；以及编辑部，编辑向接受部指示的文档文件的标签信息，并编辑其他作为检索对象的文档文件的标签信息，分配部也可以将分配给文档文件的标签信息更新为由编辑部编辑的标签信息。根据该结构，即使在对文档文件分配了不适当的标签信息的情况下，也能够适当地修正分配给文档文件的标签信息。

(9)编辑部也可以基于规定的阈值，选择性地编辑作为检索对象的文档文件的标签信息。在该情况下，能够基于阈值选择性地批量编辑多个文档文件的标签信息。

(10)由检索部输出的结果画面还显示由使用者操作的GUI(Graphical UserInterface：图形用户界面)，接受部也可以通过操作GUI接受对分配给作为检索对象的多个文档文件中的任意一个文档文件的标签信息进行编辑的指示。在该情况下，使用者能够容易地指示对所希望的文档文件分配的标签信息的编辑。

(11)编辑部也可以基于编辑结果对由构建部构建的标签推定模型进行更新。在该情况下，容易对文档文件分配适当的标签信息。

(12)本发明的其他方面的文档检索支援方法包括以下步骤：获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据；通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用所获取的训练数据，构建用于推定应分配给文档文件的标签信息的标签推定模型；以及使用所构建的标签推定模型，对作为检索对象的多个文档文件分别分配标签信息。

根据该文档检索支援方法，不需要获取大量的训练数据。另外，使用者不需要进行对庞大数量的文档文件分配标签信息的作业。而且，在标签信息的标签中没有表现波动。因此，标签信息的分配、维护或者整合几乎不产生成本。由此，能够在抑制成本的增加的同时进行文档的检索。另外，由于也能够对新创建的文档文件立即分配标签信息，因此也能够立即对新创建的文档文件进行检索。

(13)本发明的又一其他方面的文档检索支援程序是能够由处理装置执行的文档检索支援程序，其中，该文档检索支援程序使处理装置执行以下处理：获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据的处理；通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用所获取的训练数据，构建用于推定应分配给文档文件的标签信息的标签推定模型的处理；以及使用所构建的标签推定模型，对作为检索对象的多个文档文件分别分配标签信息的处理。

根据该文档检索支援程序，不需要获取大量的训练数据。另外，使用者不需要进行对庞大数量的文档文件分配标签信息的作业。而且，在标签信息的标签中没有表现波动。因此，标签信息的分配、维护或者整合几乎不产生成本。由此，能够在抑制成本的增加的同时进行文档的检索。另外，由于也能够对新创建的文档文件立即分配标签信息，因此也能够立即对新创建的文档文件进行检索。

附图说明

图1是表示本发明的一个实施方式的文档检索支援系统的结构的图。

图2是表示图1的标签推定装置以及检索装置的结构的图。

图3是表示由图2的创建部创建的标签信息一览表的图。

图4是表示由图2的提取部提取的文档文件的指定方法的一个例子的图。

图5是表示包括由图2的提取部提取的文档文件的表格的图。

图6是表示所生成的训练数据的图。

图7是用于说明具有多标签结构的训练数据的创建例的图。

图8是用于说明具有多标签结构的训练数据的创建例的图。

图9是表示检索画面的一个例子的图。

图10是表示结果画面的一个例子的图。

图11是表示编辑画面的一个例子的图。

图12是表示结果画面的文件栏的第一显示例的图。

图13是表示结果画面的文件栏的第二显示例的图。

图14是表示结果画面的文件栏的第三显示例的图。

图15是表示结果画面的文件栏的第三显示例的图。

图16是表示结果画面的文件栏的第四显示例的图。

图17是表示结果画面的文件栏的第五显示例的图。

图18是表示在训练数据具有多标签结构时的编辑画面的一个例子的图。

图19是表示由图2的标签推定装置进行的标签推定处理的流程图。

图20是表示由图2的检索装置进行的检索处理的流程图。

图21是表示由图2的检索装置进行的检索处理的流程图。

具体实施方式

(1)文档检索支援系统的结构

以下，使用附图说明本发明的实施方式的文档检索支援系统、文档检索支援方法以及文档检索支援程序。图1是表示本发明的一个实施方式的文档检索支援系统的结构的图。如图1所示，文档检索支援系统100由个人计算机等信息处理装置实现，并且具有：RAM(随机存取存储器)110、ROM(只读存储器)120、CPU(中央运算处理装置)130、存储部140、操作部150、显示部160以及数据库存储装置170。

RAM110、ROM120、CPU130、存储部140、操作部150、显示部160以及数据库存储装置170与总线180连接。由RAM110、ROM120以及CPU130构成标签推定装置10和检索装置20。在本实施方式中，标签推定装置10和检索装置20由共同的文档检索支援系统100构成，但实施方式并不限定于此。标签推定装置10和检索装置20只要能够相互连接，也可以由单独的文档检索支援系统100构成。

RAM110例如由易失性存储器构成，并作为CPU130的作业区域而使用。ROM120例如由非易失性存储器构成，存储文档检索支援程序。文档检索支援程序包括标签推定程序和检索程序。CPU130通过在RAM110上执行存储在ROM120中的标签推定程序，从而作为标签推定装置10进行标签推定处理。另外，CPU130通过在RAM110上执行存储在ROM120中的检索程序，从而作为检索装置20进行检索处理。后面将描述标签推定处理以及检索处理的详细内容。

文档检索支援程序也可以存储在存储部140中而不是ROM120中。或者，文档检索支援程序也可以以存储在计算机可读的存储介质中的形式被提供，并安装在ROM120或存储部140中。或者，在文档检索支援系统100与互联网等网络连接的情况下，从该网络上的服务器(包括云服务器)发布的文档检索支援程序也可以被安装在ROM120或者存储部140中。

存储部140包括：硬盘、半导体存储器、光盘、磁盘或者存储卡等存储介质，存储用于推定应分配给任意文档文件的标签信息的Transformer型的机器学习模型等。在Transformer型的机器学习模型中，使用大规模的语料库预先进行学习。在本例中，Transformer型的机器学习模型是BERT(Bidirectional Encoder Representations fromTransformers)。

操作部150例如包括鼠标等指向设备、键盘或触摸面板。使用者通过操作操作部150，能够对标签推定装置10或检索装置20进行规定的选择或指示。显示部160例如包括液晶显示器，显示规定的GUI(Graphical User Interface)或检索处理的结果等。数据库存储装置170包括服务器等大容量的存储装置，预先存储表示成为检索对象的多个文档的文档文件。

(2)标签推定装置的结构

图2是表示图1的标签推定装置10以及检索装置20的结构的图。如图2所示，标签推定装置10包括创建部11、提取部12、训练数据获取部13、构建部14、推定部15以及编辑部16作为功能部。图1的CPU130执行存储在ROM120等中的标签推定程序，从而实现标签推定装置10的功能部。标签推定装置10的功能部的一部分或者全部也可以通过电子电路等硬件来实现。

创建部11响应于操作部150的操作，创建应分配给作为检索对象的文档文件的标签信息的候补的列表(称为标签信息一览表)。在标签信息一览表中，标签信息的候补以分类为层级结构的状态排列。使用者能够使用操作部150进行用于创建标签信息一览表的操作。

提取部12响应于操作部150的操作，从存储在数据库存储装置170中的多个文档文件中提取用于生成训练数据的一部分的文档文件。使用者能够使用操作部150指定用于生成训练数据的一部分的文档文件。

训练数据获取部13通过对由提取部12提取的各文档文件分配由创建部11创建的标签信息一览表中的任意一个标签信息，生成各文档文件作为用于构建后述的标签推定模型的训练数据。训练数据表示作为解释变量的文档文件的内容与作为目标变量的分配给文档文件的标签信息之间的关系。

构建部14获取存储在存储部140中的BERT。另外，构建部14使用由训练数据获取部13生成的多个训练数据，使BERT学习文档文件的内容与分配给文档文件的标签信息之间的关系。由此，构建BERT作为标签推定模型。

推定部15使用由构建部14构建的标签推定模型，推定从检索装置20指定的文档文件的标签信息，并将推定结果发送到检索装置20。另外，推定部15对所推定的标签信息的推定概率(可靠度)进行评价。如上所述，由于在BERT中使用大规模的语料库预先进行学习，因此即使在训练数据的数量比较少的情况下，也能够高精度地推定标签信息。在本例中，每个标签信息的训练数据的数量可以为10个左右。

编辑部16在被请求对分配给来自检索装置20中的任意一个文档文件分配的标签信息进行编辑的情况下，通过编辑分配给该文档文件的标签信息，创建已编辑文件F1。另外，编辑部16针对其他作为检索对象的文档文件(编辑前文件F2)，以与已编辑文件F1相同的方式编辑标签信息。编辑部16能够基于推定概率的阈值，选择性地批量编辑关于编辑前文件F2的标签信息。编辑部16将编辑后的标签信息发送到检索装置20，并且基于编辑结果更新由构建部14构建的标签推定模型。

通过标签信息的维护，有时会发现废弃的标签信息或者名称发生变化的标签信息。另外，由推定部15推定的标签信息的推定概率并不限定于100％，有时会推定出错误的标签信息。而且，有时想要分配迄今为止不存在的新的标签信息。即使在这样的情况下，编辑部16也能够通过编辑标签信息来将适当的标签信息分配给文档。另外，由于不需要进行对用于推定新的标签信息的标签推定模型的再次学习，因此能够防止停机时间的发生。

(3)检索装置的结构

如图2所示，检索装置20包括：索引获取部21、登记部22、文件获取部23、检索部24以及接受部25作为功能部。图1的CPU130执行存储在ROM120等中的检索程序，从而实现检索装置20的功能部。检索装置20的功能部的一部分或者全部也可以通过电子电路等硬件来实现。

索引获取部21通过爬取数据库存储装置170来获取各文档文件的索引信息。索引信息包括存储在数据库存储装置170中的文档文件的路径、名称、创建者、创建日或者内容等。每次向数据库存储装置170添加新的文档文件时，索引获取部21进一步地获取所添加的文档文件的索引信息。登记部22将由索引获取部21获取的索引信息登记到检索部24中。

另外，如后所述，登记部22接收由标签推定装置10的推定部15针对各文档文件推定出的标签信息。登记部22还将从推定部15接收到的关于各文档文件的标签信息作为该文档文件的索引信息的一部分登记在检索部24中。由此，能够对文档文件分配标签信息并检索该文档文件。因此，登记部22作为对文档文件分配标签信息的分配部发挥功能。

而且，如后所述，登记部22接收由标签推定装置10的编辑部16针对各文档文件编辑的标签信息。登记部22将登记在检索部24中的标签信息更新为从编辑部16接收到的编辑后的标签信息。

文件获取部23基于除登记在检索部24中的标签信息之外的索引信息，获取作为检索对象的文档文件，并将所获取的文档文件指定给标签推定装置10。在该情况下，由标签推定装置10的推定部15推定所指定的文档文件的标签信息。由推定部15推定出的标签信息如上述那样被发送到登记部22中。

在由登记部22登记了各文档文件的标签信息之后，检索部24使显示部160显示规定的检索画面。使用者通过操作操作部150，能够将所希望的字符串输入到检索画面中。检索部24检索被分配了与输入到检索画面中的字符串匹配的标签信息的文档文件，使显示部160显示示出检索结果的结果画面。

接受部25从显示在显示部160上的结果画面接受对标签信息进行编辑的指示。使用者能够通过在结果画面上操作操作部150，从而指示对分配给所希望的文档文件的标签信息进行编辑。在此，在初始设定中，用于标签信息的编辑的推定概率的阈值是既定值，但使用者也可以通过操作操作部150，来变更推定概率的阈值的设定。

接受部25在接受对标签信息进行编辑的指示的情况下，请求标签推定装置10编辑分配给该文档文件的标签信息。在该情况下，由标签推定装置10的编辑部16编辑分配给该文档文件的标签信息，并且也以相同的方式编辑分配给其他文档文件的标签信息。由编辑部16编辑的标签信息如上述那样被发送到登记部22。

(4)标签推定装置的动作例

图3是表示由图2的创建部11创建的标签信息一览表的图。如图3所示，创建部11基于使用者对操作部150的操作，使用显示在显示部160上的表格，创建标签信息一览表101。

在图3的标签信息一览表101的例子中，标签信息包括：“行业”、“主题”、“方法”以及“文件类别”作为项目。项目“行业”的标签包括：“食品”、“信息”以及“汽车”。项目“主题”的标签包括：“发酵食品”、“服务”以及“自动驾驶”。项目“方法”的标签包括：“酵母”、“SaaS”、“PaaS”、“MaaS”以及“高精度GPS”。项目“文件类别”的标签包括：“调查报告书”以及“设计书”。

图4是表示由图2的提取部12提取的文档文件的指定方法的一个例子的图。如图4所示，通过在显示部160上指定保存目的地的路径来提取文档文件。在图4的例子中，使用者通过操作操作部150，指定“C盘”的“文件夹AAA”的“文件夹BBB”的“文件夹CCC”。另外，使用者通过操作操作部150，指定“C盘”的“文件夹XXX”的“文件夹YYY”的“文件夹WWW”以及“文件夹ZZZ”。

在该情况下，提取部12提取保存在“文件夹CCC”中的文档文件“aaa.txt”以及“bbb.pptx”。另外，提取部12提取保存在“文件夹WWW”中的文档文件“xxx.pdf”。而且，提取部12提取保存在“文件夹ZZZ”中的文档文件“yyy.docx”以及“zzz.pptx”。

在图4中所指定的路径以及所提取的文档文件在与图3中所创建的标签信息一览表101相关联的状态下，以表格形式显示在显示部160上。图5是表示包括由图2的提取部12提取的文档文件的表格的图。如图5所示，使用者通过操作操作部150，从标签信息一览表101所包含的标签中选择与表格102的各文档文件对应的各项目的标签。在图5的例子中，从与标签信息一览表101对应的下拉菜单中选择各项目的标签。也可以自动地选择标签的一部分。

所选择的标签信息的标签由图2的训练数据获取部13分配给各文档文件。由此，生成各文档文件作为训练数据。图6是表示所生成的训练数据的图。在图6的例子中，从所提取的5个文档文件中分别生成5个训练数据。对训练数据“xxx.pdf”分配标签“食品”、“发酵食品”、“酵母”以及“调查报告书”。

同样地，对训练数据“yyy.docx”分配标签“信息”、“服务”、“SaaS”以及“设计书”。对训练数据“zzz.pptx”分配标签“信息”、“服务”、“PaaS”以及“设计书”。对训练数据“aaa.txt”分配标签“汽车”、“服务”、“MaaS”以及“调查报告书”。对训练数据“bbb.pptx”分配标签“汽车”、“自动驾驶”、“高精度GPS”以及“设计书”。

也可以针对一个项目选择多个标签(多标签)。图7以及图8是用于说明具有多标签结构的训练数据的创建例的图。在图7的左侧，以树状方式记载了在“产业”中分类的“行业”的结构。同样地，在图7的右侧，以树状方式记载了在“工伤”中分类的“事故内容”的结构。

如图7所示，项目“行业”中的标签“其他”的“行业”进一步被分类为“汽车维修业”、“清洁行业”或“机械修理业”。另外，项目“事故内容”中的标签“跌倒”的“事故内容”被进一步分类为“滑倒”、“绊倒”或“踩空”。当创建具有图7的多标签结构的训练数据时，将图8的表格103代替图5的表格102显示在显示部160上。

在图8的表格103中，基于创建部11创建的标签信息一览表101，以与文档文件对应的方式显示能够分配给由提取部12提取的文档文件的各项目的一个以上的标签。使用者通过操作操作部150，在表格103上选择与各文档文件对应的各项目的一个以上的标签。在图8的例子中，对与所选择的标签对应的表格103的方格标记上“〇”。根据该结构，能够对与各文档文件对应的各项目分配多个标签。由此，能够创建具有多标签结构的训练数据。

(5)检索装置的动作例

在将各文档文件的标签信息作为索引信息的一部分登记在图2的检索部24之后，检索画面被检索部24显示在显示部160上。图9是表示检索画面的一个例子的图。如图9所示，检索画面30包括输入栏31。使用者通过操作图2的操作部150，能够将所希望的字符串输入到输入栏31中。字符串可以是词语，也可以是文章。

通过在输入栏31中输入字符串，由检索部24检索被分配了与该字符串匹配的标签信息的文档文件，并将示出检索结果的结果画面显示在显示部160上。在图9的例子中，“工伤”这样的词语被输入到输入栏31中。图10是表示结果画面的一个例子的图。如图10所示，结果画面40包括输入栏41、文件栏42、标签检索栏43以及按钮44、45。

输入栏41具有与检索画面30的输入栏31相同的功能。使用者也能够将所希望的字符串输入到输入栏41中。因此，在将各文档文件的标签信息登记为索引信息的一部分之后，检索部24也可以使显示部160显示结果画面40而不是检索画面30。

在文件栏42中，显示基于被检索到的文档文件的文档的开头部分、文档文件的路径以及索引信息(包括标签信息)等。另外，在文件栏42中，显示有编辑图标46。编辑图标46是为了接受对标签信息的编辑而进行操作的GUI。在检索到多个文档文件的情况下，多个文件栏42分别与多个文档文件对应，并且被配置为沿上下方向排列。

在标签检索栏43中，以树状方式显示与检索到的文档文件相关联的能够访问的标签信息。能够访问的标签信息包括对检索到的文档文件分配的标签信息和与该标签信息属于同一层级的标签信息。另外，在各标签信息的左侧显示复选框，在各标签信息的右侧用括号显示标签信息的相应件数。此外，相应件数为0的标签信息用灰色显示。

当使用者操作操作部150以在与所希望的标签信息对应的复选框中勾选上复选标记并操作按钮44时，在标签检索栏43上仅显示与该复选框对应的标签信息。另外，当使用者操作操作部150并操作按钮45时，在标签检索栏43上显示所有能够访问的标签信息。

另外，当使用者操作操作部150以选择所希望的标签信息时，由检索部24检索被分配了该标签信息的文档文件，并在显示部160上显示表示检索结果的结果画面。因此，使用者能够通过仅选择标签信息来检索文档文件。

而且，使用者通过操作操作部150来操作所希望的文件栏42的编辑图标46，从而选择与该文件栏42对应的文档文件。另外，用于对分配给被选择的文档文件的标签信息进行编辑的编辑画面被显示为弹出画面。图11是表示编辑画面的一个例子的图。如图11所示，编辑画面50包括标签编辑栏51以及按钮52。

在标签编辑栏51中，按项目的每个层级显示分配给被选择的文档文件的标签信息。另外，在标签编辑栏51中显示复选框53。在对所选择的文档文件分配多个标签信息的情况下，多个标签编辑栏51分别与多个标签信息对应，并且被配置成沿上下方向排列。

使用者通过操作操作部150以去除所希望的标签编辑栏51的复选框53的复选标记并操作按钮52，从而从所选择的文档文件中删除与该复选框53对应的标签信息。另一方面，使用者通过操作操作部150以勾选上所希望的标签编辑栏51的复选框53的复选标记并操作按钮52，从而将与该复选框53对应的标签信息添加到所选择的文档文件中。

另外，使用者通过操作操作部150以变更所希望的标签编辑栏51的标签信息中的所希望的标签并操作按钮52，从而将分配给所选择的文档文件的标签信息的标签更新为变更后的标签。在图11的例子中，从与图3的标签信息一览表101对应的下拉菜单中选择“动作的反作用力/不合理的动作”作为标签信息中的项目“事故内容”的标签。由此，项目“事故内容”的标签“被夹住/被卷入”被变更为标签“动作的反作用/不合理的动作”。

在执行了上述的操作的情况下，图2的标签推定装置10的编辑部16被请求编辑标签信息。通过由编辑部16编辑分配给被选择的文档文件的标签信息，来创建已编辑文件F1。另外，即使对于其他编辑前文件F2，也以与已编辑文件F1相同的方式基于推定概率的阈值来编辑标签信息。

例如，假设对编辑前文件F2即第1～第四文档文件分配的标签“被夹住/被卷入”的推定概率分别为85％、50％、70％以及55％。其中，在将推定概率的阈值设为60％的情况下，对于以阈值以上的推定概率被分配了标签的第一以及第三文档文件，项目“事故内容”的标签被变更为“动作的反作用/不合理的动作”。另一方面，对于以小于阈值的推定概率被分配了标签的第二以及第四文档文件，项目“事故内容”的标签被变更为“无选项”。

(6)其他显示例

图12是表示结果画面40的文件栏42的第一显示例的图。如图12的上部所示，在第一显示例中，标签信息以按每个种类汇总成一行的状态显示在各文件栏42上。在图12的例子中，在图7的左侧的项目“行业”的标签被汇总成一行，在图7的右侧的项目“事故内容”的标签被汇总成另一行。如图12的下部所示，也可以省略标签信息的题头的显示。在该情况下，由于文件栏42中所显示的字符数量减少，因此文件栏42的可读性提高。

图13是表示结果画面40的文件栏42的第二显示例的图。如图13的上部所示，在第二显示例中，与第一显示例同样地，标签信息以按每个种类汇总成一行的状态显示在各文件栏42中。其中，具有父子关系的标签用相同的颜色显示。在该情况下，使用者能够容易地识别标签信息中的标签的父子关系。如图13的下部所示，也可以省略标签信息的题头的显示。

图14以及图15是表示结果画面40的文件栏42的第三显示例的图。如图14所示，在第三显示例中，标签信息以按每个父子关系汇总成一行的状态显示在各文件栏42上。在该情况下，使用者能够容易地识别标签信息中的标签的父子关系。如图15的上部所示，也可以省略标签信息的题头的显示。另外，如图15的下部所示，相同种类的标签信息也可以用相同的颜色来显示。

图16是表示结果画面40的文件栏42的第四显示例的图。如图16所示，在第四显示例中，以与标签信息的种类对应的方式将按钮47显示在各文件栏42上。每当使用者操作操作部150以操作所希望的按钮47时，交互地进行与该按钮47对应的标签信息的标签的展开显示和显示的解除。

图17是表示结果画面40的文件栏42的第五显示例的图。在图17中，在第五显示例中，标签信息以按每个种类被汇总成一行并且被细分至最低层级的项目的状态显示在各文件栏42上。

图18是表示训练数据具有多标签结构时的编辑画面的一个例子的图。当使用者操作操作部150以操作图10的所希望的文件栏42的编辑图标46时，图18的编辑画面60被显示为弹出画面。如图18所示，编辑画面60包括：多个选项卡61、标签编辑栏62以及按钮63。

多个选项卡61分别与标签信息的多个项目对应。当使用者操作操作部150以操作所希望的选项卡61时，在标签信息中与该选项卡61对应的项目的标签以树状方式显示在标签编辑栏62上。每当使用者使用操作部150以操作所希望的标签时，交互地进行该标签的选择和选择的解除。所选择的标签通过附加背景色以能够识别的方式显示。也能够选择多个标签。

使用者能够以与图11的编辑画面50中的操作相同的方式，对所选择的各标签进行用于指示添加、删除或变更等编辑的操作。使用者在指示了对所选择的各标签进行编辑的状态下，通过操作按钮63，编辑被选择并被分配给所选择的文档文件的标签信息的标签。

(7)标签推定处理

图19是表示由图2的标签推定装置10进行的标签推定处理的流程图。图19的标签推定处理通过图1的CPU130在RAM110上执行存储在ROM120等上的文档检索支援程序中的标签推定程序而被执行。以下，将使用图19的流程图与图2的标签推定装置10一起说明标签推定处理。

首先，创建部11基于使用者对操作部150的操作来创建标签信息一览表101(步骤S1)。另外，提取部12基于使用者对操作部150的操作，提取存储在数据库存储装置170中的一部分的文档文件(步骤S2)。也可以先执行步骤S1和步骤S2中的任意一个。

接下来，训练数据获取部13通过将在步骤S1中创建的标签信息一览表101的标签信息的标签分配给在步骤S2中提取的文档文件，来生成训练数据(步骤S3)。接着，构建部14获取使用大规模语料库预先进行了学习的BERT，通过使BERT使用在步骤S3中生成的训练数据进行学习，来构建标签推定模型(步骤S4)。

然后，推定部15判定是否已指定作为检索对象的文档文件(步骤S5)。在执行了后述的检索处理中的步骤S23或者步骤S37的情况下，推定部15判定为已指定文档文件。在没有指定文档文件的情况下，推定部15进入到步骤S8。

在已指定文档文件的情况下，推定部15使用在步骤S4中构建的标签推定模型来推定文档文件的标签信息(步骤S6)。另外，推定部15将在步骤S6中推定的标签信息发送到检索装置20中(步骤S7)，并进入到步骤S8。

在步骤S8中，编辑部16判定是否已针对任意一个文档文件请求编辑标签信息(步骤S8)。在执行了后述的检索处理中的步骤S31的情况下，编辑部16判定为已请求编辑标签信息。在没有请求编辑标签信息的情况下，编辑部16返回到步骤S5。

在已请求编辑标签信息的情况下，编辑部16通过根据请求编辑分配给文档文件的标签信息来创建已编辑文件F1(步骤S9)。另外，编辑部16基于推定概率的阈值，编辑其他编辑前文件F2的标签信息(步骤S10)。

另外，编辑部16将在步骤S10中编辑的标签信息发送到检索装置20(步骤S11)。而且，编辑部16基于在步骤S10中的编辑结果，更新在步骤S4中构建的标签推定模型(步骤S12)，并返回到步骤S5。也可以先执行步骤S11和步骤S12中的任意一个。

(8)检索处理

图20以及图21是表示由图2的检索装置20进行的检索处理的流程图。图20以及图21的检索处理通过图1的CPU130在RAM110上执行存储在ROM120等中的文档检索支援程序中的检索程序而被执行。以下，将使用图20以及图21的流程图与图2的检索装置20一起说明检索处理。

首先，索引获取部21通过爬取数据库存储装置170，获取除了各文档文件的标签信息之外的索引信息(步骤S21)。接着，登记部22将在步骤S21中获取的索引信息登记在检索部24中(步骤S22)。

接下来，文件获取部23基于在步骤S22中登记的索引信息，指定作为检索对象的文档文件(步骤S23)。在该情况下，通过依次执行上述的标签推定处理的步骤S6、S7，推定所指定的文档文件的标签信息，并将所推定的标签信息发送到检索装置20中。

登记部22接收从标签推定装置10发送的标签信息(步骤S24)。另外，登记部22将在步骤S24中接收到的标签信息作为在步骤S23中指定的文档文件的索引信息的一部分登记在检索部24中(步骤S25)。然后，检索部24使显示部160显示图9的检索画面30(步骤S26)。

接下来，检索部24判定在检索画面30的输入栏31中是否输入了字符串(步骤S27)。此外，在步骤S26中，检索部24也可以使显示部160显示图10的结果画面40来代替检索画面30。在该情况下，在步骤S27中，检索部24判定在结果画面40的输入栏41中是否输入了字符串。

在没有输入字符串的情况下，检索部24进入到步骤S30。在输入了字符串的情况下，检索部24检索被分配了与所输入的字符串匹配的标签信息的文档文件(步骤S28)。接着，检索部24将表示基于步骤S28的检索结果的结果画面40显示在显示部160上(步骤S29)，并进入到步骤S30。在步骤S30中，接受部25判定是否已经从在步骤S29中显示的结果画面40接受到对任意一个文档文件编辑标签信息的指示。

在接受了对标签信息进行编辑的指示的情况下，接受部25请求标签推定装置10编辑分配给该文档文件的标签信息(步骤S31)。在该情况下，通过依次执行上述的标签推定处理的步骤S9～S11，根据请求，编辑分配给规定的文档文件的标签信息，并将编辑后的标签信息发送到检索装置20中。

登记部22接收从标签推定装置10发送的编辑后的标签信息(步骤S32)。另外，登记部22将在步骤S25中登记的标签信息更新为在步骤S32中接收到的编辑后的标签信息(步骤S33)，并返回到步骤S27。

在步骤S30中，在没有接受对标签信息进行编辑的指示的情况下，接受部25进入到步骤S34。在步骤S34中，索引获取部21通过爬取数据库存储装置170，从而判定是否向数据库存储装置170添加了新的文档文件(步骤S34)。在没有添加新的文档文件的情况下，索引获取部21返回到步骤S27。

在添加了新的文档文件的情况下，索引获取部21获取除了该新的文档文件的标签信息之外的索引信息(步骤S35)。接下来，登记部22将在步骤S35中获取的索引信息登记在检索部24中(步骤S36)。接着，文件获取部23基于在步骤S36中登记的索引信息，指定新的文档文件作为检索对象(步骤S37)，并返回到步骤S27。

(9)效果

在本实施方式的文档检索支援系统100中，由训练数据获取部13获取训练数据，在训练数据中，将标签信息分配给从作为检索对象的多个文档文件中提取的一部分的文档文件的。通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用由训练数据获取部13获取的训练数据，从而由构建部14构建用于推定应该分配给文档文件的标签信息的标签推定模型。使用由构建部14构建的标签推定模型，由登记部22对作为检索对象的多个文档文件中分别分配标签信息。

在该文档检索支援系统100中，由于在作为Transformer型的机器学习模型的BERT中使用语料库预先进行学习，因此即使在训练数据数量较少的情况下，也能构建能够以高精度推定标签信息的标签信息推定模型。在该情况下，不需要获取大量的训练数据。因此，通过使用将作为检索对象的多个文档文件的一部分而不是全部的文档文件作为训练数据而构建的标签信息推定模型，从而能够对检索对象的多个文档文件分别分配标签信息。

根据该结构，使用者不需要进行对庞大数量的文档文件分配标签信息的作业。另外，在标签信息的标签中没有表现波动。因此，标签信息的分配、维护或整合几乎不产生成本。由此，能够在抑制成本的增加的同时进行文档的检索。另外，由于对新创建的文档文件也立即分配标签信息，因此也能够立即对新创建的文档文件进行检索。

使用者通过在检索画面30的输入栏31或结果画面40的输入栏41中输入所希望的字符串，从而能够容易地利用与该字符串匹配的文档文件。另外，使用者通过选择显示在结果画面40的标签检索栏43中的所希望的标签信息，从而能够容易地利用被分配了该标签信息的文档文件。

另外，使用者通过操作结果画面40的文件栏42中的编辑图标46，从而能够容易地指示对分配给所希望的文档文件的标签信息的编辑。由此，即使在对文档文件分配了不适当的标签信息的情况下，也能够适当地修正对文档文件分配的标签信息。而且，在对标签信息进行了编辑的情况下，基于编辑结果更新标签推定模型，因此容易对文档文件分配适当的标签信息。

(10)其他实施方式

在上述的实施方式中，文档检索支援系统100包括存储部140、操作部150、显示部160以及数据库存储装置170，但实施方式并不限定于此。文档检索支援系统100只要能够与存储部140、操作部150、显示部160以及数据库存储装置170连接，也可以不包括存储部140、操作部150、显示部160以及数据库存储装置170中的一部分或全部。

另外，训练数据获取部13通过将由创建部11创建的标签信息一览表101中的任意一个标签信息分配给由提取部12提取的一部分的文档文件来生成训练数据，但实施方式并不限定于此。训练数据获取部13也可以从外部的存储装置等中获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据。在该情况下，标签推定装置10也可以不包括创建部11和提取部12。

(11)权利要求的各结构要素与实施方式的各部分的对应关系

以下，对权利要求的各结构要素与实施方式的各要素的对应的例子进行说明，但本发明并不限定于下述的例子。作为权利要求的各结构要素，也能够使用具有权利要求中记载的结构或功能的其他各种要素。

在上述实施方式中，训练数据获取部13是训练数据获取部的例子，构建部14是构建部的例子，登记部22是分配部的例子，文档检索支援系统100是文档检索支援系统的例子。创建部11是创建部的例子，提取部12是提取部的例子，结果画面40是结果画面的例子，检索部24是检索部的例子，接受部25是接受部的例子，编辑部16是编辑部的例子。

Claims

1.一种文档检索支援系统，其中，具有：

训练数据获取部，获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据；

构建部，通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用由所述训练数据获取部获取的所述训练数据，构建用于推定应分配给文档文件的标签信息的标签推定模型；以及

分配部，使用由所述构建部构建的所述标签推定模型，对作为检索对象的多个文档文件分别分配标签信息。

2.如权利要求1所述的文档检索支援系统，其中，

所述训练数据表示作为解释变量的文档文件的内容和作为目标变量的分配给文档文件的标签信息之间的关系，

所述标签推定模型是通过所述Transformer型的机器学习模型基于所述训练数据学习文档文件的内容和分配给文档文件的标签信息之间的关系而构建的。

3.如权利要求1或2所述的文档检索支援系统，其中，

所述Transformer型的机器学习模型是BERT。

4.如权利要求1至3中任一项所述的文档检索支援系统，其中，还具有：

创建部，创建标签信息一览表，该标签信息一览表表示应分配给作为检索对象的多个文档文件的标签信息的候补的列表；以及

提取部，从作为检索对象的多个文档文件中提取一部分的文档文件，

所述训练数据获取部将由所述创建部创建的所述标签信息一览表中的任意一个标签信息分配给由所述提取部提取的一部分的文档文件，从而生成所述训练数据。

5.如权利要求1至4中任一项所述的文档检索支援系统，其中，还具有：

检索部，在由所述分配部对作为检索对象的多个文档文件分别分配了标签信息之后，接受字符串的输入，从作为检索对象的多个文档文件中检索与所述字符串匹配的文档文件，并输出示出检索结果的结果画面。

6.如权利要求5所述的文档检索支援系统，其中，

由所述检索部输出的所述结果画面还显示与所检索的文档文件相关联的能够访问的标签信息，

所述检索部检索被分配了显示在所述结果画面上的标签信息中的由使用者选择的标签信息的文档文件，并输出示出检索结果的所述结果画面。

7.如权利要求6所述的文档检索支援系统，其中，

所述能够访问的标签信息包括被分配给由所述检索部检索到的文档文件的标签信息和与该标签信息属于同一层级的标签信息的候补。

8.如权利要求5至7中任一项所述的文档检索支援系统，其中，还具有：

接受部，接受对分配给作为检索对象的多个文档文件中的任意一个文档文件的标签信息进行编辑的指示；以及

编辑部，编辑向所述接受部指示的文档文件的标签信息，并编辑其他作为检索对象的文档文件的标签信息，

所述分配部将分配给文档文件的标签信息更新为由所述编辑部编辑的标签信息。

9.如权利要求8所述的文档检索支援系统，其中，

所述编辑部基于规定的阈值，选择性地编辑作为检索对象的文档文件的标签信息。

10.如权利要求8或9所述的文档检索支援系统，其中，

由所述检索部输出的所述结果画面还显示由使用者操作的GUI，

通过操作所述GUI，所述接受部接受对分配给作为检索对象的多个文档文件中的任意一个文档文件的标签信息进行编辑的指示。

11.如权利要求8至10中任一项所述的文档检索支援系统，其中，

基于编辑结果，所述编辑部更新由所述构建部构建的所述标签推定模型。

12.一种文档检索支援方法，其中，包括以下步骤：

获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据；

通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用所获取的所述训练数据，构建用于推定应分配给文档文件的标签信息的标签推定模型；以及

使用所构建的所述标签推定模型，对作为检索对象的多个文档文件分别分配标签信息。

13.一种计算机可读介质，存储有能够由处理装置执行的文档检索支援程序，其中，

所述文档检索支援程序使所述处理装置执行以下处理：

获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据的处理；

通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用所获取的所述训练数据，构建用于推定应分配给文档文件的标签信息的标签推定模型的处理；

使用所构建的所述标签推定模型，对作为检索对象的多个文档文件分别分配标签信息的处理。