CN105608069A - 信息提取支持设备和方法 - Google Patents

信息提取支持设备和方法 Download PDF

Info

Publication number
CN105608069A
CN105608069A CN201510802048.9A CN201510802048A CN105608069A CN 105608069 A CN105608069 A CN 105608069A CN 201510802048 A CN201510802048 A CN 201510802048A CN 105608069 A CN105608069 A CN 105608069A
Authority
CN
China
Prior art keywords
attribute
document
statement
candidate
equipment according
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201510802048.9A
Other languages
English (en)
Inventor
冈本昌之
宫村祐一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN105608069A publication Critical patent/CN105608069A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及信息提取支持设备和方法。根据一个实施例,一种信息提取支持设备包括第一获取器、判定器、选择器和提取器。第一获取器获取从中提取指示某种类型的期望信息的至少一个属性的文档作为分析目标。判定器判定该至少一个属性是否有效,并且获得有效属性中的至少一个作为一个或多个候选属性。选择器从一个或多个候选属性中选择要用于分析的属性作为选中属性。提取器从文档中提取属于选中属性的表述作为属性表述。

Description

信息提取支持设备和方法
相关申请的交叉引用
本申请基于2014年11月19日递交的日本专利申请2014-234963号并要求其优先权的权益,这里通过引用并入该日本专利申请的全部内容。
技术领域
本文描述的实施例一般地涉及信息提取支持设备和方法。
背景技术
从网页或文档提取诸如词的属性(例如,产品名称和产品的价格)之类的信息的技术是已知的。利用这种技术,可以容易地组织文档内的特定信息(例如,从文档提取产品的规格的列表并且制作表格)。
然而,如果要提取的信息对于每个文档是不同的,则选择属性是麻烦的。可以使用传统的技术,即,将多个文档分类到指定的类别中并且根据该分类来判定要提取哪种信息。
附图说明
图1是示出根据第一实施例的信息提取支持设备的框图。
图2是示出信息提取设备的信息提取处理的流程图。
图3A图示了从目标文档提取的属性表述的示例。
图3B图示了示出目标文档的分析结构的表格的示例。
图4图示了存储在特征存储库中的逻辑规则的示例。
图5图示了在候选属性呈现器和生成器处生成的分析结果的呈现的示例。
图6是示出根据第二实施例的信息提取支持设备的框图。
图7图示了用户界面的示例。
图8图示了逻辑规则的更新的示例。
具体实施方式
如果提取信息的人(分析者)不是训练有素的或者不是专家,则可能有这样的问题,即,该人不能认识到根据目的应当提取哪种属性。尤其,如果要提取的属性取决于特征的组合而变化,则不是专家的人难以考虑文档与特征之间的关系。此外,如果文档的数目增加,则必须提取的信息的量增加,并且分析者核对的份额也增加。
一般地,根据一个实施例,信息提取支持设备包括第一获取器、判定器、选择器和提取器。第一获取器获取从中提取指示某种类型的期望信息的至少一个属性的文档作为分析目标。判定器判定该至少一个属性是否有效,并且获得有效属性中的至少一个作为一个或多个候选属性。选择器从一个或多个候选属性中选择要用于分析的属性作为选中属性。提取器从文档中提取属于选中属性的表述作为属性表述。
以下,将参考附图详细描述根据当前实施例的信息提取支持设备、方法和程序。在以下实施例中,执行相同操作的元素将被赋予相同的附图标记,并且对其的冗余说明将被酌情省略。
(第一实施例)
将参考图1的框图描述根据第一实施例的信息提取支持设备。
根据第一实施例的信息提取支持设备100包括文档获取器101、特征存储库102、有效性判定器103、候选属性呈现器104、选择器105、属性表述提取器106和生成器107。
文档获取器101获取要分析的一个或多个目标文档。目标文档可通过用户输入获取,或者可由外部服务器自动收集。在本实施例中,假定目标文档是由自然书写表述的文本数据,例如上传在互联网上的网页和新闻文章。然而,目标文档不限于此,而可以是可从数据提取属性的任何事物。属性指示用户希望提取的某种类型的期望信息,例如产品名称、价格和公司名称。文档获取器101可从用户获取分析的目的(以下也称为“分析目的”)。分析目的可例如是技术地图、供应链或者家系图,但不限于此。
特征存储库102存储表格、特征提取器和一个或多个逻辑规则,在该表格中包括词和短语的用语(wording)和用语的属性彼此关联。特征提取器提取用于提取属性的文档的元数据以提取后面说明的属性表述(例如,创建的时间和日期、文档的文件格式、语言等等)、文档中包括的用语的特征(例如,诸如名词和动词之类的词性、诸如人名和地名之类的专有名词的分类、出现在词之前或之后的用语、N元语法等等)以及文档中包括的附图的特征(图画、照片、图表和插图的分类、表格中的列或行的数目等等)。逻辑规则是与在用于提取后面说明的属性表述的属性之间的关系有关的规则。特征提取器和要作为提取候选的属性具有多对一关系或一对多关系。换言之,一个或多个特征提取器对应于一个属性,或者特征提取器对应于一个或多个属性。特征提取器与属性之间的关系可被预存储或者基于提取结果来选择。稍后将参考图4描述逻辑规则。特征存储库102存储分析目的和对于该分析目的预期的相应属性。分析目的和属性彼此相关联。
有效性判定器103从文档获取器101接收一个或多个目标文档,并且通过参考特征存储库102来判定可从该一个或多个目标文档提取的属性对于分析目的是否有效。有效性判定器103获得被判定为有效的一个或多个属性作为候选属性。
如果文档获取器101不获取分析目的,则有效性判定器103可通过参考目标文档和候选属性中的至少一个来估计分析目的。在此情况下,有效性判定器103可估计一个或多个目标文档的类别和文档格式。
候选属性呈现器104从有效性判定器103获取一个或多个候选属性和一个或多个目标文档,并且例如在显示器上呈现一个或多个候选属性。
选择器105从用户接收指令(以下称为“用户指令”),并且从候选属性呈现器104接收一个或多个候选属性和一个或多个目标文档。选择器105从由候选属性呈现器104呈现的候选属性之中选择由用户指令选择的要用于分析的属性作为选中属性。
属性表述提取器106从选择器105接收选中属性和一个或多个目标文档,并且对于每个选中属性从一个或多个目标文档中提取属于该选中属性的表述作为属性表述。
生成器107从属性表述提取器106接收选中属性、相应的属性表述和一个或多个目标文档。生成器107根据分析目的执行包括对选中属性和属性表述设定用户希望的输出格式在内的分析处理,并且生成分析结果。分析结果例如被输出到显示器。生成器107可通过接收包括指示输出格式的信息的用户指令来设定输出格式。否则,特定的输出格式可被预设为默认设定。
接下来,将参考图2的流程图说明信息提取支持设备100处的信息提取处理。
在步骤S201中,文档获取器101获取一个或多个目标文档。
在步骤S202中,有效性判定器103判定可从一个或多个目标文档提取的属性是否有效。
例如,如果一个或多个目标文档中包括的属于特定属性的用语出现的次数不小于阈值,则该属性可被判定为有效。具体而言,如果由恰当表述提取方法判定词语“A公司”在目标文档中出现的次数不小于阈值,则词语“A公司”所属的属性“公司名称”被判定为有效属性。
用语和用语的属性可通过参考存储在特征存储库102中的指示用语与属性之间的对应关系的查找表或者通过参考关于用语与属性之间的对应关系的外部信息来判定。否则,用语与属性之间的对应关系可基于在特征存储库102中对于相应属性存储的该用语被特征提取器提取的次数来判定。对于该判定,可以使用所有输入文档,或者可以使用随机采样的对于判定足够的特定数目的文档。
另外,如果一个或多个目标文档中包括的属于特定属性的多个用语出现的次数不小于阈值,则该属性可被判定为有效。具体而言,如果指示公司名称的词语“A公司”、“B公司”和“C公司”在目标文档中出现的总次数不小于阈值,则这些词语的每一个所属的属性“公司名称”被判定为有效属性。
有效性判定器103获得可提取的属性之中的被判定为有效的属性作为候选属性。
在步骤S203中,有效性判定器103判定用户是否输入分析目的。首先输入分析目的可减少用于估计分析目的所要求的属性的时间。如果输入了分析目的,则过程前进到步骤S205;如果没有输入,则过程前进到步骤S204。
在步骤S204中,有效性判定器103通过参考目标文档和候选属性中的至少一个来估计一个或多个分析目的。例如,如果包括许多指示“公司名称”的词语的新闻文章被获得作为目标文档,则有效性判定器103可估计分析目的与公司名称有关,例如表示公司之间的关系的分析,例如“技术地图”、“工业地图”、“供应链”和“股票价格比较”。用户从估计的分析目的中选择期望的分析目的。
在步骤S205中,候选属性呈现器104呈现一个或多个候选属性。候选属性呈现器104可呈现预期根据分析目的会需要的预选择的候选属性作为“推荐”属性。
属性可被呈现为列表,其中通过基于属性出现的频率对列表排序,或者通过将具有紧密关系(例如产品名称和产品分类)的属性分组,属性被按字母顺序排列。此外,分组的属性在列表格式中可被折叠或展开。候选属性呈现器104可呈现当之前利用信息提取支持设备100分析相同类型的文档时选择的属性。通过对属性的上述呈现,用户在选择分析所必要的属性时不必核对所有大量的候选属性。
在步骤S206中,选择器105从呈现的候选属性之中选择由用户指令选择的要用于分析的属性作为选中属性。用户指令的示例包括用户触摸显示器上显示候选属性的区域、用户利用诸如键盘之类的输入设备输入候选属性以及用户读出候选属性名称并通过一般话音识别处理确定候选属性。
在步骤S207中,属性表述提取器106根据特征存储库102中的特征提取器和逻辑规则从一个或多个目标文档中提取属于选中属性的表述作为属性表述。在不使用特征提取器和逻辑规则的情况下,目标文档中的属性和表述在有效性判定器103的处理完成时是与彼此关联的。在此情况下,属性表述提取器106可获得与属性相关联的表述作为属性表述,而不执行另外的处理。
在步骤S208中,生成器107生成并输出关于选中属性和提取的属性表述的分析结果。
信息提取支持设备100的信息提取处理通过上述过程完成。在此实施例中,假定由文档获取器101获得的一个或多个目标文档全部被同时处理。然而,图2所示的信息提取处理(例如有效性判定器103处的处理)可对每个目标文档执行。例如,如果添加了新的目标文档,则有效性判定器103可仅对添加的目标文档执行处理,并且判定可从添加的目标文档提取的属性是否有效。
将参考图3A来说明从目标文档提取的属性表述的示例。
例如,如果基于关于公司活动的新闻文章分析公司之间的关系,则要求从文章(包括文章的标题)提取关于公司活动的信息。
如图3A所示,文章的标题300包括以下各项作为文章内容:日期“2014/11/1”301、公司“公司A”和“公司B”、诸如“关系密切”之类的公司之间的关系303和诸如“半导体芯片”之类的主题304。属性表述提取器106提取这些词语作为属性表述。
示出目标文档的分析结果的示例表格参考图3B在图3A中示出。
表格350示出属性与属性表述之间的关系。在作为分析结果输出的表格中,作为列标题的属性305与属性表述306相关联。
例如,如果创建公司的列表,则可以只提取与“公司”有关的属性。如果分析公司之间的关系,则可提取与“公司”和“关系”有关的属性。
当提取公司名称时,可使用诸如恰当表述提取之类的一般自然语言处理。然而,对于未包括在字典中的新公司名称,基于诸如“与ABC关系密切”之类的上下文来估计公司名称“ABC”。可将公司名称本身或者用于从上下文找出公司名称的线索作为库准备在特征存储库102中,并且可根据要分析的文档的类型使用该库。
有这样的情况,即,取决于文档的类型,分析目的所要求的某些属性的属性表述不能一次全部提取。在这种情况下,其相应属性表述不能被提取的属性的列可以为空白,或者可通过另外的手段来补充。例如,如果属于特定属性的属性表述共同属于相应属性表述为空白的属性,则可由存储的该特定属性的属性表述来补偿这种空白。否则,可通过利用外部搜索引擎以已经提取的属性表述作为搜索查询进行搜索来补偿不能提取的属性表述。
此外,通过使用逻辑规则可应用专家关于分析处理的知识。将参考图4来说明特征存储库102中存储的逻辑规则的示例。
例如,如果“公司A”和“公司B”之间的竞争关系被表示为“竞争(公司A,公司B)”,并且公司的表示顺序不改变含义,则使用规则“竞争(公司1,公司2)竞争(公司2,公司1)”,因为“竞争(公司1,公司2)”等于“竞争(公司2,公司1)”。这可避免提取冗余的属性表述,并且避免分析处理和后期处理中输出的结果中的冗余表述。
假定处于法律纠纷中的公司是竞争者。对于这些公司,使用规则“审理(公司1,公司2)竞争(公司2,公司1)”来应用多类属性之间的关系。
如果公司1制造组件A,公司2制造最终产品B,并且公司1和2彼此具有业务关系,则确立了供应关系。在此情况下,使用规则“制造(公司1,组件A)∧制造(公司2,终端B)∧贸易(公司1,公司2)供应(公司1,公司2)”以描述供应链的一部分。
通过参考这种逻辑规则,即使用户不具有分析的充分知识,也可获得或分析专家可分析的属性之间的关系。
用户可从呈现给用户的多个逻辑规则之中选择逻辑规则。例如,候选属性呈现器104从特征存储库102获得一个或多个逻辑规则,并且将所获得的一个或多个规则呈现给用户,并且选择器105根据用户指令选择逻辑规则。这样,作为后期处理格式的属性表述提取器106可基于用户的意图执行属性表述的提取。此外,选择器105可选择根据用户指令选择的逻辑规则的必要属性作为选中属性,并且候选属性呈现器104可呈现选中属性。
类似地,用户可从呈现给用户的特征提取器中选择特征提取器。例如,候选属性呈现器104从特征存储库102获得一个或多个特征提取器,并且将所获得的一个或多个特征提取器呈现给用户,并且选择器105根据用户指令选择特征提取器。这样,作为后期处理格式的属性表述提取器106可基于用户的意图执行属性表述的提取。此外,选择器105可选择根据用户指令选择的特征提取器的必要属性作为选中属性,并且候选属性呈现器104可呈现选中属性。
将参考图5来说明候选属性呈现器104进行的呈现的示例和在生成器107处生成的分析结果的输出的示例。
候选属性呈现器104呈现窗口,用户在其中输入目标文档,并且用户选择分析目的。图5(a)图示了用户选择“供应链”作为分析目的,并且选择关于半导体领域的文章作为目标文档的情况。
可从预定项目之中选择分析目的。否则,如上述步骤S204中所述,在文档获取器101获得目标文档之后,可基于目标文档中包括的词估计可能的分析目的,并且可呈现估计的分析目的。
也可能由用户输入分析目的。如果用户自由输入分析目的,则分析目的应当是信息提取支持设备100中预设的分析目的之一。因此,可以使用诸如增量式搜索之类的用于文本输入的辅助技术来响应于用户对若干字符的输入而呈现预设的分析目的。
图5(b)图示了由候选属性呈现器104呈现的目标文档和候选属性的估计结果。在此示例中,由于已经输入了分析目的,所以被预设为要用于分析目的的属性的属性是预定的并且被呈现为提取项目候选下的推荐属性。应当用于该分析目的但不包括在目标文档中的属性可不被呈现。属性可被呈现为不可选择的以表明这些属性是分析目的所必要的。
此外,用户认为对分析必要的额外属性可被选择,并且用户认为对分析不必要的属性可不被选择。可呈现指示目标文档的内容、目标文档的领域和目标文档的类型(例如文章或论文)的特征,以使得分析结果是用户可容易理解的。在图5(b)中,呈现了“半导体领域”和“新闻”。如果有另一属性要提取,则属性可被添加为新项目。在图5(b)中,选中的项目是选中属性。
在图5(c)中,显示了选择属性和属性表述的输出格式的“呈现格式”、选择要输出的文件格式的“文件格式”和指示分析所需的估计时间的“预期处理时间”。例如,有这样的情况,即希望属性和属性表述被输出为表格,以及它们被输出为图表,如果属性不是独立的而是相关的话。因此,希望用户可选择输出格式。可以有这样的情况,即生成器107根据分析目的预选择适当的呈现格式,并且分析结果被作为所选呈现格式呈现给用户。
如果结果被输出为电子文件,则文件格式可以是可选择的。如果用户通过参考预期处理时间决定分析所需的时间太长,则用户可缩窄要提取的属性(取消选择用户认为不必要的属性)以调整处理时间。
图5(d)图示了生成器执行的分析的结果。图5(d)是公司之间的供应链关系被输出为图表格式的示例。
根据上述的第一实施例,假定可从目标文档提取的属性是否有效,以及根据用户的分析目的可呈现能够提取的哪种属性。基于选中属性提取属性表述,并且使用属性表述的分析结果被作为表格或图表输出以促进包括必要信息的分析。
此外,根据包括专家使用的分析点的逻辑规则预选择必要属性,以便即使对于不是专家的人,根据分析目的促进包括必要信息的分析。
(第二实施例)
第二实施例与第一实施例的不同之处在于用户提供对于属性和输出结果的正确或不正确判定以便建立机器学习。有这样的情况,即分析结果不能被按原样利用;例如这样的情况,即应当审查分析结果或者应当作出反馈来提高信息提取支持设备100的提取准确度。在这种情况下,通过建立机器学习可以提高候选属性的提取和分析结果的准确度。
根据第二实施例的信息提取支持设备600包括文档获取器101、特征存储库102、有效性判定器103、候选属性呈现器104、选择器105、属性表述提取器106、生成器107、正确选择输入单元601和学习单元602。
文档获取器101、特征存储库102、有效性判定器103、候选属性呈现器104、选择器105、属性表述提取器106和生成器107执行与第一实施例中相同的操作,因此对其的说明将被省略。
正确选择输入单元601从选择器105接收候选属性并且从生成器107接收输出结果,并且基于用户指令对每个候选属性和输出结果执行正确或不正确判定。
学习单元602从正确选择输入单元601接收被用户执行了正确或不正确判定的候选属性和分析结果,并且更新特征存储库102中存储的包括逻辑规则的数据。
将参考图7来说明用来审查输出结果的用户界面窗口的示例。
图7图示了目标文档和提取结果被输出给用户的示例。例如,显示消息701“请确认输出结果”来提示用户执行正确或不正确判定。在图7中,呈现了属性702“数据”、“公司1”、“公司2”、“主题”和“关系”,以及目标文档的原始文本703和从原始文本703提取的与每个属性702相对应的属性表述704。如果必要,除了属性702以外也可呈现由信息提取支持设备100附加到输出结果的诸如确定性因子或概率值之类的得分。此外,可以呈现用于提取相应属性表述704的特征提取器或逻辑规则,或者特征提取器或逻辑规则的应用结果,以指示出如何基于哪种线索来获得提取结果。
另外,如图7所示,可以呈现核对列705来指示属性与属性表述之间的对应关系是正确还是不正确。如果属性与属性表述之间的对应关系全部正确则用户输入“○”,而如果在提取结果中有错误则输入“×”。正确选择输入单元601从用户接收对每个属性和属性表述的正确或不正确判定。学习单元602基于用户的正确或不正确判定结果更新特征存储库102中存储的数据。可应用一般学习方法,因为被判定为正确的属性与属性表述之间的对应关系的优先级被设定得更高,而被判定为不正确的属性表述从下一次起随后不被呈现。在此情况下,特征提取器和逻辑规则被用于提取属性表述704的次数被计数,使得要用于每个属性的提取的特征提取器和逻辑规则可被排序,或者可对每个特征提取器或逻辑规则计算加权。在下一次处理执行期间,通过防止实现不必要的特征提取器或逻辑规则,可以减少处理所需的时间,并且可以提高分析的准确度。
例如,对于原始文本703,“公司A因半导体芯片开发与公司B关系密切(11/11/2014)”,在核对列705中输入“○”。这表明用户判定这些属性与属性表述之间的对应关系是正确的。因此,学习单元602将这些对应关系存储到特征存储库102中(或者更新存储的数据)。
另一方面,对于原始文本703,“公司C因照明专利起诉了公司D(11/12/2014)”,在核对列705中输入“×”。这表明用户判定这些属性与属性表述之间的对应关系是不正确的。对于原始文本703“公司C因照明专利起诉了公司D(11/12/2014)”,属性702“关系”的属性表述704是“供应”。然而,考虑到原始文本中的表述“起诉”,属性表述704应当是“审理”。然后,学习单元602可使得特征存储库102学习此错误(更新数据)。这样,可以提高候选属性的提取和分析结果的准确度。
在图7的示例中,正确性是基于所有属性的对应关系判定的,但也可基于每个属性的对应关系来判定。例如,可仅对与属性的对应关系不正确的属性表述704“供应”输入“×”,从而可提供更详细的判定结果。
此外,由上述方法提取作为分析结果的信息可被用作字典或者知识源,或者可被应用到另外的目的。将参考图8来说明更新逻辑规则的示例。
图8示出了如何使用在交互中以如图4所示的逻辑规则的形式获得的知识的示例,所述交互例如是包括问题和要求背景知识的答案的话音交互。
例如,如果输入关于在特定一天发生的新闻事件的问题,则提供一规则,其中从作为原始文本的新闻文章中读出属性“日期”,其是与输入日期相同的属性表述。具体而言,例如,话音识别单元(图中未示出)识别来自用户的话音。属性表述提取器106随后响应于话音识别结果提取作为原始文本的新闻文章,从其中与输入日期相同的属性表述被从目标文档中提取出。然后,话音合成单元(图中未示出)接收从属性表述提取器106提取的新闻文章,并且执行话音合成来读出文章。
如果输入关于特定公司的竞争者的问题,则搜索与“公司1”或“公司2”竞争的公司,并且将查询的公司的名称作为响应返回。应对询问的知识不限于新闻文章;这种知识也可通过划分并存储例如在呼叫中心中获得的响应记录内的问题和答案来构建。通过指定用于问题和答案的属性,所获得的数据可被利用作为交互的知识库。
根据第二实施例,通过从用户接收关于呈现的候选属性和分析结果的正确或不正确判定结果来建立机器学习,从而可以提高候选属性的提取和分析结果的准确度。
实施例的流程图图示了根据实施例的方法和系统。要理解,本文描述的实施例可以用硬件、电路、软件、固件、中间件、微代码或者其任何组合来实现。应当理解,流程图图示的每个方框以及流程图图示中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可被加载到计算机或其他可编程设备上以产生机器,使得在计算机或其他可编程设备上执行的指令创建用于实现在一个或多个流程图方框中规定的功能的装置。这些计算机程序指令也可被存储在计算机可读存储器中,这些指令可指引计算机或其他可编程设备以特定方式工作,从而使得存储在计算机可读存储器中的指令产生出包括实现在一个或多个流程图方框中规定的功能/动作的指令装置的制造品。计算机程序指令也可被加载到计算机或其他可编程设备上以使得在计算机或其他可编程设备上执行一系列操作步骤来产生提供用于实现在一个或多个流程图方框中规定的功能的步骤的计算机可编程设备。
虽然已经描述了某些实施例,但这些实施例只是作为示例给出的,而并不打算限制本发明的范围。事实上,本文描述的新颖方法和系统可以以多种其他形式来实现;另外,在不脱离本发明的精神的情况下可对本文描述的方法和系统的形式进行各种省略、替换和改变。所附权利要求及其等同物打算覆盖将会落在本发明的范围和精神内的这种形式或修改。

Claims (17)

1.一种信息提取支持设备,包括:
第一获取器,其获取从中提取指示某种类型的期望信息的至少一个属性的文档作为分析目标;
判定器,其判定所述至少一个属性是否有效,并且获得有效属性中的至少一个作为一个或多个候选属性;
选择器,其从所述一个或多个候选属性中选择要用于分析的属性作为选中属性;以及
提取器,其从所述文档中提取属于所述选中属性的表述作为属性表述。
2.根据权利要求1所述的设备,其中,所述分析包括对所述选中属性和所述属性表述的输出格式的设定,
所述设备还包括生成器,该生成器根据所述分析的目的生成分析结果。
3.根据权利要求1所述的设备,其中,所述第一获取器获取所述分析的目的。
4.根据权利要求1所述的设备,其中,所述判定器通过参考所述文档和所述候选属性中的至少一个来估计所述分析的目的。
5.根据权利要求1所述的设备,其中,所述判定器在所述文档内的属于第一属性的用语的出现数目不小于第一阈值或者所述文档内的属于所述第一属性的多个用语的出现总数不小于所述第一阈值时,判定所述第一属性为有效的。
6.根据权利要求1所述的设备,其中,所述判定器估计所述文档的类别和文档格式。
7.根据权利要求2所述的设备,还包括:
第二获取器,其从用户获取对于所述候选属性和所述分析结果中的至少一个的正确或不正确判定;以及
学习单元,其基于所述正确或不正确判定执行学习。
8.根据权利要求1所述的设备,其中,当新文档被添加时,所述判定器判定所述属性对于所述新文档是否有效,或者所述属性对于所有文档是否有效。
9.根据权利要求1所述的设备,还包括呈现所述候选属性的呈现器。
10.根据权利要求9所述的设备,其中,所述判定器估计所述分析的目的所要求的候选属性,并且所述呈现器将所述分析的目的所要求的候选属性呈现为被预选择的。
11.根据权利要求9所述的设备,其中,所述呈现器呈现所述分析所需的估计时间。
12.根据权利要求1所述的设备,还包括存储特征提取器和逻辑规则中的至少一个的存储库,所述特征提取器用于提取所述属性表述,所述逻辑规则指示属性之间的关系。
13.根据权利要求12所述的设备,其中,所述选择器根据用户指令选择所述特征提取器或所述逻辑规则中的至少一个。
14.根据权利要求12所述的设备,其中,当所述特征提取器和所述逻辑规则中的至少一个被用户选择时,所述选择器选择所选特征提取器或所选逻辑规则所要求的属性作为选中属性。
15.根据权利要求1所述的设备,其中,当所述分析的目的所要求的第三属性之中没有为其提取属性表述的第二属性存在,并且属于其他第三属性的属性表述共同属于所述第二属性时,属于其他第三属性的属性表述被用作所述第二属性的属性表述。
16.一种信息提取支持方法,包括:
获取从中提取指示某种类型的期望信息的至少一个属性的文档作为分析目标;
判定所述至少一个属性是否有效,以获得有效属性中的至少一个作为一个或多个候选属性;
从所述一个或多个候选属性中选择要用于分析的属性作为选中属性;以及
从所述文档中提取属于所述选中属性的表述作为属性表述。
17.一种包括计算机可执行指令的非暂态计算机可读介质,其中所述指令当被处理器执行时使得该处理器执行一种方法,该方法包括:
获取从中提取指示某种类型的期望信息的至少一个属性的文档作为分析目标;
判定所述至少一个属性是否有效,以获得有效属性中的至少一个作为一个或多个候选属性;
从所述一个或多个候选属性中选择要用于分析的属性作为选中属性;以及
从所述文档中提取属于所述选中属性的表述作为属性表述。
CN201510802048.9A 2014-11-19 2015-11-19 信息提取支持设备和方法 Withdrawn CN105608069A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014234963A JP6505421B2 (ja) 2014-11-19 2014-11-19 情報抽出支援装置、方法およびプログラム
JP2014-234963 2014-11-19

Publications (1)

Publication Number Publication Date
CN105608069A true CN105608069A (zh) 2016-05-25

Family

ID=55961982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510802048.9A Withdrawn CN105608069A (zh) 2014-11-19 2015-11-19 信息提取支持设备和方法

Country Status (3)

Country Link
US (1) US9898464B2 (zh)
JP (1) JP6505421B2 (zh)
CN (1) CN105608069A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110178013A (zh) * 2017-11-29 2019-08-27 索尼公司 标记物选择支持系统、标记物选择支持装置、支持标记物选择的方法和支持标记物选择的程序

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6602243B2 (ja) 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
US10846612B2 (en) * 2016-11-01 2020-11-24 Google Llc Actionable suggestions for activities
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
JP7065718B2 (ja) * 2018-07-19 2022-05-12 株式会社日立製作所 判断支援装置および判断支援方法
JP7352501B2 (ja) 2020-03-17 2023-09-28 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
CN114330593B (zh) * 2022-01-06 2022-09-20 中国科学院地质与地球物理研究所 Avo属性的分析方法、装置以及电子设备

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3384016B2 (ja) 1993-02-19 2003-03-10 富士ゼロックス株式会社 文書編集管理装置
JP3020803B2 (ja) 1994-06-08 2000-03-15 株式会社日立製作所 法令文書検索改正システム
JP4278011B2 (ja) 1996-04-05 2009-06-10 富士通株式会社 文書校正装置およびプログラム記憶媒体
JPH1167576A (ja) 1997-08-25 1999-03-09 Fujimori Kogyo Kk セラミックコンデンサーの導体形成用積層体およびそれを用いたセラミックコンデンサーの製造方法
JP2000067054A (ja) * 1998-08-17 2000-03-03 Nippon Telegr & Teleph Corp <Ntt> 属性表現抽出方法及び装置並びに属性表現抽出プログラムを記録した記録媒体
JP2001101184A (ja) * 1999-10-01 2001-04-13 Nippon Telegr & Teleph Corp <Ntt> 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2001134600A (ja) 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
JP2002024211A (ja) 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体
JP2002056354A (ja) 2000-08-14 2002-02-20 Toshiba Corp 光学的文字読取装置および同装置のデータ修正方法
JP4861573B2 (ja) 2001-08-02 2012-01-25 株式会社 ワールドフュージョン 研究遺伝子産物の重要性を予測するシステム
US8316001B1 (en) 2002-07-22 2012-11-20 Ipvision, Inc. Apparatus and method for performing analyses on data derived from a web-based search engine
JP4737914B2 (ja) 2002-10-02 2011-08-03 ケープレックス・インク 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。
JP4186774B2 (ja) * 2003-09-25 2008-11-26 沖電気工業株式会社 情報抽出装置,情報抽出方法,およびプログラム
JP2005190338A (ja) 2003-12-26 2005-07-14 Toshiba Corp 情報抽出装置および情報抽出方法
JP4534666B2 (ja) 2004-08-24 2010-09-01 富士ゼロックス株式会社 テキスト文検索装置及びテキスト文検索プログラム
JP4565106B2 (ja) 2005-06-23 2010-10-20 独立行政法人情報通信研究機構 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
JP2007018342A (ja) * 2005-07-08 2007-01-25 Nec Corp 情報提供装置および情報提供方法
JP2009075733A (ja) * 2007-09-19 2009-04-09 Toshiba Corp 候補表示装置及び方法
JP2009230452A (ja) * 2008-03-24 2009-10-08 Fuji Xerox Co Ltd 属性情報入力支援装置及びプログラム
US8645391B1 (en) * 2008-07-03 2014-02-04 Google Inc. Attribute-value extraction from structured documents
JP5238418B2 (ja) * 2008-09-09 2013-07-17 株式会社東芝 情報推薦装置および情報推薦方法
JP5359389B2 (ja) 2009-03-06 2013-12-04 大日本印刷株式会社 データ分析支援装置、データ分析支援システム、及びプログラム
JP4897846B2 (ja) 2009-03-17 2012-03-14 ヤフー株式会社 関連情報提供装置、そのシステム、そのプログラム、および、その方法
WO2010119615A1 (ja) 2009-04-15 2010-10-21 日本電気株式会社 学習データ生成装置、及び固有表現抽出システム
JP2011108085A (ja) 2009-11-19 2011-06-02 Nippon Hoso Kyokai <Nhk> 知識構築装置およびプログラム
JP5356197B2 (ja) 2009-12-01 2013-12-04 株式会社日立製作所 単語意味関係抽出装置
US8566360B2 (en) 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
WO2012074338A2 (ko) * 2010-12-02 2012-06-07 에스케이텔레콤 주식회사 자연어 및 수학식 처리 방법과 그를 위한 장치
US9098600B2 (en) * 2011-09-14 2015-08-04 International Business Machines Corporation Deriving dynamic consumer defined product attributes from input queries
KR101127883B1 (ko) 2011-09-26 2012-03-21 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 기술 추이 제공 방법 및 시스템
JP2013143039A (ja) 2012-01-11 2013-07-22 Canon Inc 頻出パターン抽出装置、頻出パターン抽出方法、及びプログラム
JP5870790B2 (ja) 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
ES2791697T3 (es) 2012-06-27 2020-11-05 Rakuten Inc Dispositivo de procesamiento de información, método de procesamiento de información, y programa de procesamiento de información
JP6025520B2 (ja) 2012-11-26 2016-11-16 株式会社日立製作所 データ分析支援処理システム及び方法
CN104919458B (zh) * 2013-01-11 2018-12-14 日本电气株式会社 文本挖掘设备、文本挖掘方法和记录介质
JP6061337B2 (ja) 2013-01-17 2017-01-18 Kddi株式会社 規則生成装置及び抽出装置
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110178013A (zh) * 2017-11-29 2019-08-27 索尼公司 标记物选择支持系统、标记物选择支持装置、支持标记物选择的方法和支持标记物选择的程序

Also Published As

Publication number Publication date
JP2016099741A (ja) 2016-05-30
US20160140389A1 (en) 2016-05-19
JP6505421B2 (ja) 2019-04-24
US9898464B2 (en) 2018-02-20

Similar Documents

Publication Publication Date Title
CN105608069A (zh) 信息提取支持设备和方法
JP5171962B2 (ja) 異種データセットからの知識移転を伴うテキスト分類
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
US11762926B2 (en) Recommending web API&#39;s and associated endpoints
US20210064821A1 (en) System and method to extract customized information in natural language text
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
CN106708940B (zh) 用于处理图片的方法和装置
TWI645303B (zh) 字串驗證方法、字串擴充方法與驗證模型訓練方法
CN109284374B (zh) 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
JP6217468B2 (ja) 多言語文書分類プログラム及び情報処理装置
US20160110459A1 (en) Realtime Ingestion via Multi-Corpus Knowledge Base with Weighting
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
Costin-Gabriel et al. Archaisms and neologisms identification in texts
US11403339B2 (en) Techniques for identifying color profiles for textual queries
US10929446B2 (en) Document search apparatus and method
US20150317315A1 (en) Method and apparatus for recommending media at electronic device
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN110750712A (zh) 基于数据驱动的软件安全需求推荐方法
JP2020119087A (ja) 文書審査支援方法、文書審査支援装置及びコンピュータプログラム
KR102569381B1 (ko) 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법
CN111708862B (zh) 文本匹配方法、装置及电子设备
JP6642429B2 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
CN113609833A (zh) 文件的动态生成方法、装置、计算机设备及存储介质
US11763589B1 (en) Detection of blanks in documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20160525