CN112585611A - 固有表达提取装置、方法以及存储介质 - Google Patents

固有表达提取装置、方法以及存储介质 Download PDF

Info

Publication number
CN112585611A
CN112585611A CN201980054951.8A CN201980054951A CN112585611A CN 112585611 A CN112585611 A CN 112585611A CN 201980054951 A CN201980054951 A CN 201980054951A CN 112585611 A CN112585611 A CN 112585611A
Authority
CN
China
Prior art keywords
extraction
unit
relationship
expression
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980054951.8A
Other languages
English (en)
Other versions
CN112585611B (zh
Inventor
飞田义贤
铃木优
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Publication of CN112585611A publication Critical patent/CN112585611A/zh
Application granted granted Critical
Publication of CN112585611B publication Critical patent/CN112585611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

实施方式的固有表达提取装置具备:存储提取用辞典的单元(20),该提取用辞典在从文件数据中分别提取固有表达及固有表达彼此的关系时被使用;文件受理单元(11),分别受理作为提取对象的提取用文件数据的输入、以及学习用文件数据的输入;提取单元(21),使用提取用辞典,从提取用文件数据中分别提取固有表达及关系;指定单元(13),指定学习用文件数据中的字符串中的、与提取的固有表达对应的字符串;存储关系提取规则,关系提取规则决定了从提取用文件数据中提取的、固有表达的分类彼此的关系的单元(16);生成单元(17),通过应用关系提取规则,生成被设定了所指定的固有表达中的、属于关系提取规则的分类的固有表达彼此的关系的学习文件;以及学习单元(19),基于学习文件,学习提取用辞典。

Description

固有表达提取装置、方法以及存储介质
技术领域
本发明的实施方式涉及固有表达提取装置、方法以及存储介质。
背景技术
以往,提出了通过基于人手的规则(rule)或机器学习等各种方法,来提取在文件数据(data)中出现的固有表达的机制。
另外,关于从文件数据中提取出的固有表达,根据该固有表达的分类名出现的程度来计算分类名的权重,从而对输出哪个固有表达进行判定等的应用技术也是存在的。
现有技术文献
专利文献
专利文献1:日本专利特开2007-148785号公报
发明内容
发明解决的技术问题
然而,与其他识别技术同样地,在固有表达提取中,理想的是期待100%的精度,要求进一步的精度提高。
本发明解决的技术问题在于,提供一种能够提高从文件进行固有表达提取的精度的固有表达提取装置、方法以及存储介质。
用于解决技术问题的手段
实施方式的固有表达提取装置,具有:第一存储单元,存储提取用辞典,该提取用辞典在从文件数据中分别提取该文件数据的固有表达及固有表达彼此的关系时被使用;文件受理单元,分别受理提取用文件数据的输入、以及在提取用辞典的学习中所使用的学习用文件数据的输入,该提取用文件数据是所述固有表达以及所述关系的提取对象;提取单元,使用所述提取用辞典,从由所述文件受理单元所受理的提取用文件数据中分别提取固有表达及固有表达彼此的关系;指定单元,指定与由所述文件受理单元所受理的学习用文件数据中的字符串中的、由所述提取单元提取的固有表达对应的字符串;第二存储单元,存储从提取用文件数据中提取的、确定了固有表达的分类彼此的关系的关系提取规则;生成单元,通过应用所述第二存储单元中存储的关系提取规则,生成学习文件,该学习文件被设定了由所述指定单元指定的固有表达中的属于由所述关系提取规则决定的分类的固有表达彼此的关系;以及学习单元,基于由所述生成单元生成的学习文件,学习所述提取用辞典。
发明效果
根据本发明,能够提高从文件进行固有表达提取的精度。
附图说明
图1是表示实施方式的固有表达提取装置的功能结构例的块(block)图。
图2是以表形式示出实施方式的固有表达提取装置的文件DB中存储的文件数据的一例的图。
图3是以表形式示出实施方式的固有表达提取装置的原始(original)学习文件DB(abase)中存储的固有表达相关的学习数据的一例的图。
图4是以表形式示出实施方式的固有表达提取装置的原始学习文件DB中存储的、固有表达彼此的关系相关的学习数据的一例的图。
图5是以表形式示出实施方式的固有表达提取装置的关系提取规则DB中存储的关系提取规则的一例的图。
图6是以表形式示出实施方式的固有表达提取装置的解析辞典DB中存储的解析辞典的一例的图。
图7是表示实施方式的固有表达提取装置的第一处理过程的一例的流程图(flowchart)。
图8是表示实施方式的固有表达提取装置的对文件数据的记述赋予标签(tag)时的显示画面的一例的图。
图9是表示实施方式的固有表达提取装置的第二处理过程的一例的流程图。
图10是表示实施方式的固有表达提取装置的所提取出的标签及标签彼此的关系的显示画面的一例的图。
图11是表示实施方式的固有表达提取装置的所提取出的标签及标签彼此的关系的编辑画面的一例的图。
图12是表示实施方式的固有表达提取装置的第三处理过程的一例的流程图。
图13是表示实施方式的固有表达提取装置的、文件数据的标签彼此的关系的赋予时的显示画面的一例的图。
图14是表示实施方式的固有表达提取装置的、未被提取的标签及标签彼此的关系的显示画面的一例的图。
图15是表示实施方式的固有表达提取装置的第四处理过程的一例的流程图。
图16是表示实施方式的固有表达提取装置的、未被学习但提取出的标签及标签彼此的关系的显示画面的一例的图。
图17是表示实施方式的固有表达提取装置的硬件(hardware)结构例的框图。
具体实施方式
以下,使用附图对实施方式进行说明。
图1是表示本发明的实施方式的固有表达提取装置的功能结构例的框图。
如图1所示,实施方式的固有表达提取装置10具有:文件受理部11、文件DB(数据库(database))12、固有表达/关系的学习数据编辑部13、原始学习文件DB14、针对学习数据的关系提取规则登记部15、关系提取规则DB16、针对学习数据的关系提取规则应用部17、学习文件DB18、固有表达/关系提取的学习部19、解析辞典DB20、固有表达/关系提取部21以及固有表达/关系提取结果的显示部22。
另外,固有表达提取装置10例如能够通过使用了服务器计算机(servercomputer)或个人计算机(PC:Personal Computer))等计算机设备的系统(system)来实现。关于该计算机设备,在后面叙述。
文件受理部11、固有表达/关系的学习数据编辑部13、针对学习数据的关系提取规则登记部15、针对学习数据的关系提取规则应用部17、固有表达/关系提取的学习部19、固有表达/关系提取部21以及固有表达/关系提取结果的显示部22的功能,例如通过由计算机设备的硬件处理器读出并执行在计算机设备的存储装置中存储的程序来实现。
上述的功能中的、文件受理部11、固有表达/关系的学习数据编辑部13、针对学习数据的关系提取规则登记部15以及固有表达/关系提取结果的显示部22的功能,能够作为与用户界面(UI:User Interface)中的未图示的输入装置以及显示装置协作的功能来实现。输入装置例如是键盘(keyboard)以及鼠标(mouse)。显示装置例如是液晶显示器(liquid crystal display)。输入装置以及输出装置既可以是内置于固有表达提取装置10的装置,也可以是别的装置、例如能够经由网络进行通信的其他装置。
文件DB12、原始学习文件DB14、关系提取规则DB16、学习文件DB18及解析辞典DB20设置于能够随时写入及读出的非易失性存储器中。
固有表达提取装置10能够将文件数据中的固有表达(以下,有时称为标签(tag))的提取结果与固有表达彼此的关系(以下,有时称为链接(link))的提取结果一并显示于显示装置。
另外,固有表达提取装置10也能够通过使用户参照显示、并分别发现固有表达及固有表达彼此的关系的误提取以及未提取,来对由用户对在解析辞典(有时也称为提取用辞典)的学习中使用的学习数据进行修正的处理进行辅助,该解析辞典是确定了在从文件数据中的固有表达及固有表达彼此的关系的提取中所使用的提取规则的解析辞典。
文件受理部11受理1个以上的文件数据的输入(登记),并将该所受理的文件数据存储于文件DB12。该存储的文件数据是(1)成为固有表达及固有表达彼此的关系提取的对象的、提取用文件数据、或者(2)在解析辞典的学习中使用的学习用文件数据,该解析辞典是确定了在从提取用文件数据提取固有表达、固有表达彼此的关系时使用的提取规则的解析辞典。
图2是以表形式示出实施方式的固有表达提取装置10的文件DB12中存储的文件数据的一例的图。
在图2所示的例子中,存储于文件DB12中的文件数据为,(1)文件数据所固有的内容(contents)ID、(2)标题(title)以及(3)正文等建立关联的数据。
固有表达/关系的学习数据编辑部13,按照针对输入装置的来自用户的操作,分别指定(赋予)存储于文件DB12的学习用文件数据中的、与供提取(应该被提取的)固有表达对应的字符串、和作为固有表达彼此的关系而供提取的固有表达的组,从而生成固有表达、固有表达彼此的关系的学习数据(原始学习文件)。该学习数据被存储于原始学习文件DB14中。
固有表达/关系的学习数据编辑部13也能够称为分别指定作为固有表达而供提取的字符串和作为固有表达彼此的关系而供提取的固有表达的组的指定单元。
存储于原始学习文件DB14中的学习数据被划分为与固有表达相关的学习数据和与固有表达彼此的关系相关的学习数据。
图3是以表形式示出实施方式的固有表达提取装置10的原始学习文件DB14中存储的固有表达相关的学习数据的一例的图。
在图3所示的例子中,存储于原始学习文件DB14中的固有表达相关的学习数据为,(1)固有表达固有的标签ID、(2)记述有固有表达的文件数据的内容ID、(3)标签的种类、以及(4)标签的值等建立关联的数据。
标签的种类是固有表达的分类名,例如“人名”、“地名”等。标签的值是具体的固有表达的记述,例如具体的人名、地名等。
图4是以表形式示出实施方式的固有表达提取装置10的原始学习文件DB14中存储的、固有表达彼此的关系相关的学习数据的一例的图。
在图4所示的例子中,存储于原始学习文件DB14中的固有表达彼此的关系相关的学习数据为,(1)固有表达彼此的关系所固有的关系ID、(2)第一标签ID、(3)第一标签的任务、(4)第二标签ID、以及(5)第二标签的任务等建立关联的数据。
在图4所示的例子中,作为与关系ID“1”有关的关系,示出了在标签ID为“1”的固有表达的任务“居民”与标签ID为“2”的固有表达的任务“居住的地区”之间存在关系。另外,在该例子中,作为与关系ID“2”有关的关系,示出了在标签ID为“3”的固有表达的任务“体育(sports)”与标签ID为“4”的固有表达的任务“位次”之间存在关系。
在图4中,示出了在固有表达彼此的关系相关的学习数据中对2种固有表达彼此存在的关系进行了定义的例子。但是,不限于此,在固有表达彼此的关系相关的学习数据中,也可以对3种以上的固有表达彼此存在的关系进行定义。
针对学习数据的关系提取规则登记部15,按照针对UI的来自用户的输入操作,指定(登记)确定关系提取规则,并将该关系提取规则存储于关系提取规则DB16中,该关系提取规则是确定应该从提取用文件数据中提取出关系的固有表达的分类名(种类)的组的关系提取规则。
图5是以表形式示出实施方式的固有表达提取装置10的关系提取规则DB16中存储的关系提取规则的一例的图。
在图5所示的例子中,存储于关系提取规则DB16中的关系提取规则为,(1)关系提取规则所固有的规则ID、(2)第一标签的种类、(3)第二标签的种类、(4)第一标签的任务以及(5)第二标签的任务等建立关联的规则。设置了关系提取规则DB16的上述非易失性存储器可以被称为存储关系提取规则的存储单元。
在图5所示的例子中,作为与规则ID“1”有关的关系,示出了在第一标签的种类“人名”、第二标签的种类“地名”、第一标签的任务“居民”、第二标签的任务“居住的地域”之间存在关系。另外,在该例子中,作为与规则ID“2”有关的关系,示出了在第一标签的种类“体育”、第二标签的种类“位次”、第一标签的任务“竞技名”、、第二标签的任务“竞技结果”之间存在关系。
针对学习数据的关系提取规则应用部17,通过对存储于原始学习文件DB14中的学习数据应用存储于关系提取规则DB16中的关系提取规则,从而将该学习数据中的固有表达彼此的关系中的、属于以通过关系提取规则而确定的分类名表示的分类的固有表达彼此的关系一并登记。
由此,针对学习数据的关系提取规则应用部17,生成学习文件,该学习文件是登记了固有表达彼此的关系的学习数据。该学习文件被存储于学习文件DB18中。针对学习数据的关系提取规则应用部17可以被称为生成学习文件的生成单元。
存储于学习文件DB18中的学习文件的各项目,与存储于上述原始学习文件DB14中的各种学习数据(参照图3、图4)相同。
固有表达/关系提取的学习部19,通过将存储于学习文件DB18中的学习文件的内容反映到存储于解析辞典DB20中的解析辞典中,从而学习在固有表达及固有表达彼此的关系的提取中使用的提取用辞典。
图6是以表形式示出实施方式的固有表达提取装置10的解析辞典DB20中存储的解析辞典的一例的图。
在图6所示的例子中,存储于解析辞典DB20的解析辞典(提取用辞典)为,各行固有的辞典ID、标签的种类、标签的特征、标签的值、多个种类的标签彼此的关系等建立关联。标签的特征表示标签的记述格式,例如二进制数据(binary data)。设置了解析辞典DB20的上述非易失性存储器可以被称为存储解析辞典的存储单元。
该解析辞典是为了从提取用文件数据中分别提取固有表达及固有表达彼此的关系而进行对照的辞典。在该解析辞典中,分别反映了基于过去的学习用文件数据的学习结果、以及基于新的学习用文件数据的学习结果。该解析辞典也可以是由神经网络(neuralnetwork)构成的学习器。
固有表达/关系提取部21通过将存储于解析辞典DB20中的解析辞典与存储于文件DB12中的提取用文件数据进行对照,从而从提取用文件数据中分别提取固有表达及固有表达彼此的关系。
固有表达/关系提取结果的显示部22,将基于固有表达/关系提取部21的固有表达的提取结果、以及固有表达彼此的关系的提取结果分别显示于显示装置。固有表达/关系提取结果的显示部22可以被称为分别输出固有表达的提取结果、以及固有表达彼此的关系的提取结果的输出单元。
另外,固有表达/关系提取结果的显示部22,也能够将固有表达的提取结果与固有表达彼此的关系的提取结果重叠地显示于显示装置。由此,用户容易发现固有表达的误提取以及未检测。
(第一处理)
接着,对固有表达提取装置10的第一处理进行说明。
图7是表示实施方式的固有表达提取装置10的第一处理过程的一例的流程图。
首先,根据来自用户的输入操作,文件受理部11受理学习用文件数据的登记,并将该学习用文件数据存储于文件DB12中(S11)。
存储于文件DB12中的学习文件数据被显示于显示装置。在该显示的状态下,按照针对显示画面上的学习用文件数据的正文的记述的来自用户的输入操作,固有表达/关系的学习数据编辑部13对学习用文件数据中的通过用户的输入操作而指定的记述赋予表示是标签的标记(下划线)(以下,有时称为赋予标签)。
通过标签的赋予而生成的、固有表达相关的学习数据(参照图3)被存储于原始学习文件DB14中(S12)。此外,固有表达彼此的关系相关的学习数据(参照图4)在第一处理中不被生成。
图8是表示实施方式的固有表达提取装置10的对文件数据的记述赋予标签时的显示画面G1的一例的图。
在图8所示的例子中,通过针对固有表达提取装置10的显示装置所显示的画面G1上的文件数据的正文中的各记述“输送异常”、“螺栓(bolt)”、“螺栓松弛。”、“将安装于臂(arm)的螺钉(screw)拧紧了。”进行的基于画面上的指针(pointer)的指定等,能够对各记述分别赋予标签。
通过针对画面G1上的分类名相关的窗口进行的基于指针的指定等,能够对被赋予标签的各记述一并赋予该标签的分类名。在图8所示的例子中,能够对被赋予了标签的上述的记述“输送异常”赋予标签的分类名“现象”,对上述的记述“螺栓”赋予分类名“部位”,对上述的记述“螺栓松弛。”赋予分类名“原因”,对上述的记述“将安装于臂的螺钉拧紧了。”赋予分类名“处置”。
另外,按照与画面G1不同的未图示的设定画面上的来自用户的输入操作,针对学习数据的关系提取规则登记部15对标签的任意的第一分类名与标签的任意的第二分类名之间赋予关系(链接)。
通过该赋予而生成的关系提取规则(参照图5)被存储于关系提取规则DB16中(S13)。上述的设定画面能够与画面G1中的学习用文件数据的显示并排显示。第一处理中的标签的任意的分类名彼此的关系的赋予是不依赖于上述的学习用文件数据的记述的赋予。该赋予可以在1个分类名与多个分类名之间进行。
在此,针对学习数据的关系提取规则应用部17进行如下处理:在满足下述条件时,与在关系提取规则DB16中存储的关系提取规则的登记内容相匹配地,追加、编辑或者删除以在原始学习文件DB14中存储的学习数据所示的标签中的、后述的某个分类名相关的标签与其他分类名相关的标签的关系。
上述的条件是,在S13中通过(1)通过针对学习数据的关系提取规则登记部15,针对关系提取规则,完成了某个分类名相关的标签与其他的分类名相关的标签之间的关系赋予(登记)的情况(S14的是),或者(2)在上述的关系赋予完成之前(S14的否)新进行该赋予的情况(S15的是)。在S15中为否时,处理结束。
在S14中为是或在S15中为是时,通过针对学习数据的关系提取规则应用部17中的处理而生成的学习文件被存储于学习文件DB18中(S16)。例如,如果通过关系提取规则定义了分类名A与分类名B的关系,则在学习数据中的属于分类名A的标签与属于分类名B的标签之间赋予关系。
根据上述的第一处理,由学习数据表示的、某个分类名相关的标签与其他的分类名相关的标签的关系被一并登记。
(第二处理)
接着,对固有表达提取装置10的第二处理进行说明。
图9是表示实施方式的固有表达提取装置10的第二处理过程的一例的流程图。
在第二处理中,首先,固有表达/关系提取结果的显示部22,将由固有表达/关系提取部21从提取用文件数据中提取出的标签及标签彼此的关系按每个分类名进行分组(group)后的提取结果的显示画面G2显示于显示装置(S21)。对基于固有表达/关系提取部21的提取结果与提取源文件数据的关系进行表示的信息被存储于与固有表达/关系提取结果的显示部22连接的内部存储器中。
图10是表示实施方式的固有表达提取装置10的、所提取出的标签及标签彼此的关系的显示画面G2的一例的图。
在图10所示的显示画面G2中,示出了属于分类(分类名)A、B、C、D等的多种标签,并示出了属于某个分类的标签与属于不同分类的标签之间的关系。
在图10中,示出了分别设定了分类A与分类B之间、分类B与分类C之间、分类C与分类D之间的标签彼此的关系的例子。但是,并不限于此,例如也可以设定了分类A与分类C之间、分类B与分类D之间等的标签彼此的关系。
用户能够通过输入操作来指定在提取结果的显示画面G2中示出的、介意的标签、或者标签彼此的关系(S22)。
介意的标签、或者标签彼此的关系是作为从提取用文件数据的提取结果有可能不适当的标签、或者标签彼此的关系。
伴随S22中的指定,固有表达/关系提取结果的显示部22将上述的存储于内部存储器中的对基于固有表达/关系提取部21的提取结果与提取源文件数据的关系的信息,交接给固有表达/关系的学习数据编辑部13。
受理S22中的指定,固有表达/关系的学习数据编辑部13从上述被交接的信息中检索所指定的标签、或者标签彼此的关系的提取源文件数据,并将该检索出的提取源文件数据的正文等显示于显示装置(S23)。
接收到该显示,通过来自用户的输入操作,固有表达/关系的学习数据编辑部13编辑对提取源文件数据的记述赋予的标签、或者标签彼此的关系(S24)。
图11是表示实施方式的固有表达提取装置10的所提取出的标签及标签彼此的关系的编辑画面G3的一例的图。
在图11所示的例子中,示出了属于分类B的第一个标签与属于分类C的第一个标签的关系被指定为编辑对象的例子。在该画面G3中,按照来自用户的输入操作,固有表达/关系的学习数据编辑部13能够对于所指定的关系的变更、例如属于分类B的第一个标签与属于分类C的第二个以后的标签的关系进行修正、或者关系的删除等。
另外,如上所述,也可以进行已赋予的标签本身的修正或删除等。标签本身的修正是指例如分类名的修正、或者成为对象的记述的变更。标签本身的删除是指作为针对成为对象的记述的固有表达的指定的解除。
根据第二处理,能够容易地显示标签的提取结果、以及标签与标签的关系的提取结果中的、所指定的提取结果的提取源文件。另外,能够容易地进行标签与标签的关系的确认、编辑。
(第三处理)
接着,对固有表达提取装置10的第三处理进行说明。
图12是表示实施方式的固有表达提取装置10的第三处理过程的一例的流程图。
首先,按照来自用户的输入操作,文件受理部11受理学习用文件数据的登记,并将该学习用文件数据存储于文件DB12中(S31)。这里,设为提取用文件数据是在文件DB12中已存储的。
存储于文件DB12中的学习文件数据被显示于显示装置。在该被显示的状态下,按照针对显示画面上的学习用文件数据的记述的来自用户的输入操作,固有表达/关系的学习数据编辑部13对学习用文件数据的记述赋予标签。通过标签的赋予而生成的固有表达相关的学习数据(参照图3)被存储于原始学习文件DB14中。
在此,向学习用文件数据的记述赋予标签时的显示画面为图8所示的显示画面G1。
按照针对该显示画面G1所显示的学习用文件数据的记述的来自用户的输入操作,固有表达/关系的学习数据编辑部13对于对学习用文件数据中的记述赋予的第一标签与第二标签之间赋予关系(链接)。通过该赋予而生成的、固有表达彼此的关系相关的学习数据(参照图4)被存储于原始学习文件DB14中(S32)。第三处理中的标签彼此的关系的赋予是针对上述的学习用文件数据的正文的记述进行的赋予。这里的关系的赋予可以在1个标签与多个标签之间进行。
图13是表示实施方式的固有表达提取装置10的、文件数据的标签彼此的关系的赋予时的显示画面G4的一例的图。
在图13中,示出了被赋予了线L1的例子,该线L1对显示装置所显示的画面G4上的文件数据的正文中的第一记述“螺栓松弛。”被赋予的分类名“原因”相关的标签、以及正文中的第二记述“将安装于臂的螺钉拧紧了。”被赋予的、分类名“应对”相关的标签的关系进行表示。
在第三处理中,在第一处理中说明的针对学习数据的关系提取规则登记部15的处理不被进行,在S32中存储于原始学习文件DB14中的各种学习数据,作为学习文件、经由针对学习数据的关系提取规则应用部17被存储于学习文件DB18中。
接下来,固有表达/关系提取的学习部19将存储于学习文件DB18的学习文件的内容反映到存储于解析辞典DB20的解析辞典,从而学习固有表达及固有表达彼此的关系的提取规则(S33)。
固有表达/关系提取部21使用存储于解析辞典DB20中的解析辞典,从存储于文件DB12中的提取用文件数据中分别提取标签及标签彼此的关系(S34)。
固有表达/关系提取结果的显示部22,将在S34中提取出的标签及标签彼此的关系按照每个分类名进行了分组后的提取结果的显示画面G2显示于显示装置(S35)。
固有表达/关系提取结果的显示部22,将存储于学习文件DB18中的学习文件与S34中的提取结果进行对照。通过该对照,固有表达/关系提取结果的显示部22,分别确定虽然通过固有表达/关系提取的学习部19被生成为学习文件、但在S34中从该提取用文件数据中未被提取出的标签及标签彼此的关系,并将表示该确定出的结果的显示画面G5显示于显示装置(S36)。
上述的虽然被生成为学习文件、但未从提取用文件数据中被提取出的标签及标签彼此的关系,例如因固有表达/关系提取的学习部19对解析辞典的学习的不良情况、在此为反映于解析辞典的定义的缺失等而产生。
图14是表示实施方式的固有表达提取装置10的、未被提取的标签及标签彼此的关系的显示画面G5的一例的图。
在图14所示的例子中,由虚线包围的属于分类B的第一个标签以及属于分类C的第一个以及第三个标签,作为虽然包含在学习文件中但未从提取用文件数据中被提取出的标签进行表示。
另外,在图14所示的例子中,由虚线表示的、(1)属于分类A的第二个标签与属于分类B的第一个标签之间的关系、(2)属于分类B的第三个标签与属于分类C的第三个标签之间的关系、以及(3)属于分类C的第二个标签与属于分类D的第三个标签之间的关系,作为虽然包含在学习文件中但未从提取用文件数据中被提取出的关系进行表示。
通过第三处理,能够容易地确认标签及标签彼此的关系的提取结果的提取遗漏。
(第四处理)
接着,对固有表达提取装置10的第四处理进行说明。
图15是表示实施方式的固有表达提取装置10的第四处理过程的一例的流程图。
在第四处理中,进行第三处理中说明的S31~S35的处理(S41~S45)。
并且,固有表达/关系提取结果的显示部22,将存储于学习文件DB18中的学习文件与S44(与S34同样)中的提取结果进行对照。
通过该对照,固有表达/关系提取结果的显示部22,分别确定通过固有表达/关系提取的学习部19未被生成为学习文件、在最近的学习过的解析辞典中也没有被定义、但在S44中从该提取用文件数据提取出的标签及标签彼此的关系,并将该确定的结果的显示画面G6显示于显示装置(S46)。
上述的、虽然未被生成为学习文件、但从提取用文件数据中被提取出的标签、标签彼此的关系,例如因基于固有表达/关系提取的学习部19对解析辞典的学习的不良情况、在此为对解析辞典的不必要的定义的追加等而产生。
图16是表示实施方式的固有表达提取装置10的、未被学习但被提取出的标签及标签彼此的关系的显示画面G6的一例的图。
在图16所示的例子中,由双重线包围的属于分类C的第一个标签作为未包含在学习文件中但从提取用文件数据中被提取出的标签进行表示。
另外,在图16所示的例子中,分别示出由双重线表示的、(1)属于分类A的第二个标签与属于分类B的第一个标签之间的关系、以及(2)属于分类B的第一个标签与属于分类C的第一个标签之间的关系。这些关系作为未包含在学习文件中但从提取用文件数据中被提取出的关系进行表示。
通过第四处理,能够容易地确认标签及标签彼此的关系的提取结果的误提取。
图17是表示实施方式的固有表达提取装置10的硬件结构例的框图。
如图17所示,用于实现固有表达提取装置10的计算机设备具备CPU(CentralProcessing Unit:中央处理单元)等硬件处理器(以下为处理器)101、输入接口(interface)102、作为程序存储器(programmemory)的存储器103、储存器(storage)104、输出接口105,它们经由总线(bus)106而连接。存储器103以及储存器104例如由具有HDD(HardDisk Drive:硬盘驱动器)或者SSD(Solid State Drive:固态驱动器)等能够随时写入以及读出的非易失性存储器等非暂时性的有形的存储介质的存储装置构成。
文件受理部11、固有表达/关系的学习数据编辑部13、针对学习数据的关系提取规则登记部15、针对学习数据的关系提取规则应用部17、固有表达/关系提取的学习部19、固有表达/关系提取部21以及固有表达/关系提取结果的显示部22的功能,例如通过由处理器101读出并执行在存储器103中存储的程序来实现。此外,这些功能的一部分或全部也可以通过面向特定用途的集成电路(ASIC:Application Specific Integrated Circuit)等电路来实现。
文件DB12、原始学习文件DB14、关系提取规则DB16、学习文件DB18及解析辞典DB20以及上述的内部存储器,可以由储存器104实现。在该储存器104中存储有在进行一个实施方式的各种处理的过程中取得以及生成的各种数据。
上述的用户接口可以通过输入接口102和输出接口105来实现。
如以上说明的那样,实施方式的固有表达提取装置能够将学习数据中的标签彼此的关系一并登记,或者容易地显示提取源文件,或者能够容易地确认提取结果的提取遗漏或者误提取。因此,能够提高从文件进行固有表达提取的精度。
另外,各实施方式所记载的方法也能够作为能够使计算机(computer)执行的程序(软件单元),而存储于例如磁盘(软盘(注册商标)磁盘(Floppy disk)、硬盘等)、光盘(CD-ROM、DVD、MO等)、半导体存储器(ROM、RAM、闪存器(Flash memory)等)等记录介质,并且通过通信介质传送并发布。另外,在存储于介质侧的程序中,还包含将使计算机执行的软件单元(不仅包括执行程序,还包括表、数据结构)构成于计算机内的设定程序。实现本装置的计算机读入记录在记录介质中的程序,并且根据情况通过设定程序来构筑软件单元,并通过由该软件单元来控制动作,由此执行上述的处理。此外,本说明书中所说的记录介质不限于发布用,还包括了在计算机内部或者经由网络而连接的设备中设置的磁盘、半导体存储器等存储介质。
对本发明的几个实施方式进行了说明,但这些实施方式是作为例子进行提示的,并不意图限定发明的范围。这些新的实施方式能够以其他各种方式实施,在不脱离发明的主旨的范围内,能够进行各种省略、置换、变更。这些实施方式及其变形包含在发明的范围及主旨中,并且包含在权利要求书所记载的发明及其等同的范围内。
附图标记说明
10…固有表达提取装置,11…文件受理部,12…文件DB,13…固有表达/关系的学习数据编辑部,14…原始学习文件DB,15…针对学习数据的关系提取规则登记部,16…关系提取规则DB,17…针对学习数据的关系提取规则应用部,18…学习文件DB,19…固有表达/关系提取的学习部,20…解析辞典DB,21…固有表达/关系提取部,22…固有表达/关系提取结果的显示部。

Claims (7)

1.一种固有表达提取装置,具备:
第一存储单元(20),存储提取用辞典,该提取用辞典在从文件数据中分别提取该文件数据的固有表达及固有表达彼此的关系时被使用;
文件受理单元(11),分别受理提取用文件数据的输入、以及在所述提取用辞典的学习中使用的学习用文件数据的输入,该提取用文件数据是所述固有表达以及所述关系的提取对象;
提取单元(21),使用所述提取用辞典,从由所述文件受理单元(11)所受理的提取用文件数据中分别提取固有表达及固有表达彼此的关系;
指定单元(13),指定由所述文件受理单元(11)所受理的学习用文件数据中的字符串中的、与由所述提取单元(21)提取的固有表达对应的字符串;
第二存储单元(16),存储关系提取规则,该关系提取规则决定了从所述提取用文件数据中提取的、固有表达的分类彼此的关系;
生成单元(17),通过应用存储于所述第二存储单元(16)中的关系提取规则,生成学习文件,该学习文件是被设定了由所述指定单元(13)所指定的固有表达中的、属于由所述关系提取规则决定的分类的固有表达彼此的关系的学习文件;以及
学习单元(19),基于由所述生成单元(17)所生成的学习文件,学习所述提取用辞典。
2.根据权利要求1所述的固有表达提取装置,其中,还具备:
第一输出单元(22),输出由所述提取单元(21)提取出的固有表达;
第二输出单元(22),输出由所述第一输出单元(22)输出的固有表达中的、被指定的固有表达的提取源的文件数据;以及
编辑单元(13),对由所述第二输出单元(22)输出的提取源的文件数据的固有表达进行编辑。
3.根据权利要求1所述的固有表达提取装置,其中,还具备:
第一输出单元(22),输出由所述提取单元(21)提取出的固有表达彼此的关系;
第二输出单元(22),输出由所述第一输出单元(22)显示的固有表达彼此的关系中的、被指定的固有表达彼此的关系的提取源的文件数据;以及
编辑单元(13),对由所述第二输出单元(22)输出的提取源的文件数据的固有表达彼此的关系进行编辑。
4.一种固有表达提取装置,具备:
存储单元(20),存储提取用辞典,该提取用辞典在从文件数据中分别提取该文件数据的固有表达及固有表达彼此的关系时被使用;
文件受理单元(11),分别受理提取用文件数据的输入、以及在所述提取用辞典的学习中使用的学习用文件数据的输入,该提取用文件数据是所述固有表达以及所述关系的提取对象;
提取单元(21),使用所述提取用辞典,从由所述文件受理单元(11)所受理的提取用文件数据中分别提取固有表达及固有表达彼此的关系;
指定单元(13),指定由所述文件受理单元(11)所受理的学习用文件数据中的字符串中的、与由所述提取单元(21)提取的固有表达对应的字符串以及固有表达彼此的关系;
学习单元(19),基于与由所述指定单元(13)所指定的固有表达对应的字符串以及固有表达彼此的关系,学习所述提取用辞典;以及
输出单元(22),输出与由所述指定单元(13)所指定的固有表达对应的字符串及固有表达彼此的关系中的、通过所述提取单元(21)未提取出的、与固有表达对应的字符串及固有表达彼此的关系。
5.一种固有表达提取装置,具备:
存储单元(20),存储提取用辞典,该提取用辞典在从文件数据中分别提取该文件数据的固有表达及固有表达彼此的关系时被使用;
文件受理单元(11),分别受理提取用文件数据的输入、以及在所述提取用辞典的学习中使用的学习用文件数据的输入,该提取用文件数据是所述固有表达以及所述关系的提取对象;
提取单元(21),使用所述提取用辞典,从由所述文件受理单元(11)所受理的提取用文件数据中分别提取固有表达及固有表达彼此的关系;
指定单元(13),指定由所述文件受理单元(11)所受理的学习用文件数据中的字符串中的、与由所述提取单元(21)提取的固有表达对应的字符串以及固有表达彼此的关系;
学习单元(19),基于与由所述指定单元(13)所指定的固有表达对应的字符串以及固有表达彼此的关系,学习所述提取用辞典;以及
输出单元(22),输出与未由所述指定单元(13)指定的固有表达对应的字符串以及固有表达彼此的关系中的、由所述提取单元(21)提取出的、与固有表达对应的字符串以及固有表达彼此的关系。
6.一种固有表达提取方法,是应用于固有表达提取装置的方法,执行如下处理:
分别受理提取用文件数据的输入以及在提取用辞典的学习中使用的学习用文件数据的输入,所述提取用文件数据是固有表达及固有表达彼此的关系的提取对象,所述提取用辞典在从所述提取用文件数据中分别提取该提取用文件数据的固有表达及固有表达彼此的关系时被使用;
使用在从文件数据中分别提取该文件数据的固有表达及固有表达彼此的关系时被使用的提取用辞典,从所受理的所述提取用文件数据中分别提取固有表达及固有表达彼此的关系;
指定所受理的所述学习用文件数据中的字符串中的、与提取的所述固有表达对应的字符串;
通过应用关系提取规则,从而生成学习文件,所述关系提取规则决定了从所述提取用文件数据中提取的固有表达的分类彼此的关系,所述学习文件是被设定了所指定的所述固有表达中的属于由所述关系提取规则决定的分类的固有表达彼此的关系的学习文件;以及
基于生成的所述学习文件,学习所述提取用辞典。
7.一种存储介质,存储有使计算机作为如下单元发挥功能的固有表达提取处理程序;
第一存储单元(20),存储提取用辞典,该提取用辞典在从文件数据中分别提取该文件数据的固有表达及固有表达彼此的关系时被使用;
文件受理单元(11),分别受理提取用文件数据的输入、以及在所述提取用辞典的学习中使用的学习用文件数据的输入,该提取用文件数据是所述固有表达以及所述关系的提取对象;
提取单元(21),使用所述提取用辞典,从由所述文件受理单元(11)所受理的提取用文件数据中分别提取固有表达及固有表达彼此的关系;
指定单元(13),指定由所述文件受理单元(11)所受理的学习用文件数据中的字符串中的、与由所述提取单元(21)提取的固有表达对应的字符串;
第二存储单元(16),存储关系提取规则,该关系提取规则决定了从所述提取用文件数据中提取的、固有表达的分类彼此的关系;
生成单元(17),通过应用存储于所述第二存储单元(16)中的关系提取规则,生成学习文件,该学习文件是被设定了由所述指定单元(13)所指定的固有表达中的、属于由所述关系提取规则决定的分类的固有表达彼此的关系的学习文件;以及
学习单元(19),基于由所述生成单元(17)所生成的学习文件,学习所述提取用辞典。
CN201980054951.8A 2018-09-28 2019-09-26 命名实体提取装置、方法以及存储介质 Active CN112585611B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018183861A JP7286291B2 (ja) 2018-09-28 2018-09-28 固有表現抽出装置、方法およびプログラム
JP2018-183861 2018-09-28
PCT/JP2019/037915 WO2020067313A1 (ja) 2018-09-28 2019-09-26 固有表現抽出装置、方法および記憶媒体

Publications (2)

Publication Number Publication Date
CN112585611A true CN112585611A (zh) 2021-03-30
CN112585611B CN112585611B (zh) 2024-07-19

Family

ID=69950713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980054951.8A Active CN112585611B (zh) 2018-09-28 2019-09-26 命名实体提取装置、方法以及存储介质

Country Status (4)

Country Link
US (1) US11868726B2 (zh)
JP (1) JP7286291B2 (zh)
CN (1) CN112585611B (zh)
WO (1) WO2020067313A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62212830A (ja) * 1986-03-14 1987-09-18 Nec Corp 推論装置
CN101253497A (zh) * 2005-06-23 2008-08-27 独立行政法人情报通信研究机构 二元关系提取装置、使用二元关系提取处理的信息检索装置、二元关系提取处理方法、使用二元关系提取处理的信息检索处理方法、二元关系提取处理程序、以及使用二元关系提取处理的信息检索处理程序
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
JP2013254421A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 固有表現タイプ推定装置、方法、及びプログラム
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4074316B2 (ja) 2005-11-28 2008-04-09 株式会社東芝 固有表現抽出装置および方法
US20180130019A1 (en) * 2016-06-21 2018-05-10 0934781 B.C. Ltd System and method for Managing user and project nodes in a graph database
US10713432B2 (en) * 2017-03-31 2020-07-14 Adobe Inc. Classifying and ranking changes between document versions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62212830A (ja) * 1986-03-14 1987-09-18 Nec Corp 推論装置
CN101253497A (zh) * 2005-06-23 2008-08-27 独立行政法人情报通信研究机构 二元关系提取装置、使用二元关系提取处理的信息检索装置、二元关系提取处理方法、使用二元关系提取处理的信息检索处理方法、二元关系提取处理程序、以及使用二元关系提取处理的信息检索处理程序
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
JP2013254421A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 固有表現タイプ推定装置、方法、及びプログラム
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阳小华;张硕望;欧阳纯萍;: "中文关系抽取技术研究", 南华大学学报(自然科学版), vol. 32, no. 01, pages 66 - 72 *

Also Published As

Publication number Publication date
US20210200953A1 (en) 2021-07-01
WO2020067313A1 (ja) 2020-04-02
JP7286291B2 (ja) 2023-06-05
CN112585611B (zh) 2024-07-19
JP2020052902A (ja) 2020-04-02
US11868726B2 (en) 2024-01-09

Similar Documents

Publication Publication Date Title
US11631265B2 (en) Automated learning of document data fields
US20120102002A1 (en) Automatic data validation and correction
JP6622172B2 (ja) 情報抽出支援装置、情報抽出支援方法およびプログラム
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
US9286526B1 (en) Cohort-based learning from user edits
US9898464B2 (en) Information extraction supporting apparatus and method
CN113707300A (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
WO2018003153A1 (ja) 認識装置及び認識方法
EA003619B1 (ru) Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков
CN114118194A (zh) 选择学习模型的系统及选择学习模型的方法
JP6768738B2 (ja) 学習データ生成装置、方法、およびプログラム
US20220229863A1 (en) Assigning documents to entities of a database
JP7122896B2 (ja) 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
CN112585611B (zh) 命名实体提取装置、方法以及存储介质
CN112149402B (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
US11335108B2 (en) System and method to recognise characters from an image
JP7157245B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
US7523031B1 (en) Information processing apparatus and method capable of processing plurality type of input information
WO2021250600A1 (en) Methods and systems for matching and optimizing technology solutions to requested enterprise products
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
JP7519649B1 (ja) 情報処理装置、情報処理方法及びプログラム
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
CN112732681B (zh) 数据平台迁移方法及系统
JP4261831B2 (ja) 文字認識処理方法、文字認識処理装置、文字認識プログラム
JP6437899B2 (ja) 文書校正支援装置、文書校正支援方法、および文書校正支援プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant