CN102165443B - 文章抽取方法、文章抽取装置 - Google Patents

文章抽取方法、文章抽取装置 Download PDF

Info

Publication number
CN102165443B
CN102165443B CN200980137926.2A CN200980137926A CN102165443B CN 102165443 B CN102165443 B CN 102165443B CN 200980137926 A CN200980137926 A CN 200980137926A CN 102165443 B CN102165443 B CN 102165443B
Authority
CN
China
Prior art keywords
article
morphemes
identifier
storage part
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200980137926.2A
Other languages
English (en)
Other versions
CN102165443A (zh
Inventor
中浜章文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN102165443A publication Critical patent/CN102165443A/zh
Application granted granted Critical
Publication of CN102165443B publication Critical patent/CN102165443B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种类似文章的抽取方法,能够自动制作可根据分析人员以特定的信息源为基础采样得到的目标文本来高精度地进行文本收集(分类)的关键词的组合即分类规则。在多个采样文章组(211)和抽取对象文章组(212)之间,关于从采样文章组(211)抽取出的多个词素组,在(103)~(105)中按照这些出现文章数接近的(类似度大)顺序来缩小抽取对象文章组使得只包含各词素,该处理在(106)的控制下被重复执行,从抽取对象文章组(212)高效地抽取与采样文章组(211)类似的文章。

Description

文章抽取方法、文章抽取装置
技术领域
本发明涉及一种文章的抽取方法。
背景技术
近年来,如下的企业活动逐渐被广泛认识并固定化:对从因特网、呼叫中心得到的顾客的意见(文本信息)进行收集和分析,根据以分析结果为基础的动作(action)来进行产品和服务的改善、新商品开发。
其中,“顾客的意见”的分析是假设和验证的重复,因为需要收集作为分析目标的文本信息和检查收集的内容,所以需要非常多的时间。
另外,如果不是具有深入的商品知识的人,很难进行检查作业。
根据上述理由,在多数企业中,为了作出分析结果并向组织普及信息而浪费了相当多的时间,成为适时(timely)动作的障碍。
顾客的意见的分析作业,分为(1)目标文本信息的收集作业、(2)内容检查作业。
从分析加速(speed up)这样的观点出发,目标文本的高精度收集成为课题。如果能够高精度地收集目标文本,则内容检查的量也会被最优化,进而能够减轻分析人员的负担,使分析加速化。
为了收集目标文本,需要用于抽取目标文本的关键词的组合。
图17是表示用于例如从2008年5月的某个呼叫中心的咨询数据10,000件(元数据)中抽取符合“打印不正常”这样的意思的咨询作为目标文本的处理的概念的图。
通过对10,000件的元数据指定多个关键词,来抽取包含这些多个关键词的数据作为目标文本。这样抽取出的目标文本,例如被有效地用于制作符合“打印不正常”这样的意思的咨询的每月件数推移表。
在这种情况下,根据指定的关键词的不同,抽取内容会发生较大的变化。即当使用不怎么包含在目标文本中的关键词时,抽取精度就会下降。
因此,为了提高目标文本的抽取精度,需要具备如何选择关键词这样的知识。但是,以往收集目标文本的关键词的组合、即分类词典的设定作业,大大依赖于分析人员的个人技巧(skill)。
与关键词的决定技术相关联,公开了下述专利文献1~3。
在专利文献1中,公开了如下技术:根据指定文章集合内的单词的出现次数来抽取关键词,针对全部的组合算出两个关键词之间的搭配度(collocation),根据该搭配度来对关键词进行分组(grouping)。
在专利文献2中,公开了如下技术:根据文章的词素(morpheme)分析来抽取关键词,记述针对每组表示组特性的关键词、记述属性信息中的一个以上的组合的分类规则。
在专利文献3中,公开了如下技术:将单词的出现顺位用作为检索词的单词出现位置信息,根据两个检索词的出现顺序差来算出检索词间的关联度。
专利文献1:日本特开2002-183194号公报
专利文献2:日本特开2001-060199号公报
专利文献3:日本特开2002-189754号公报
发明内容
但是,在目标文本的抽取中依然存在如下问题点。
例如,在依赖于人工的以往技术中,具有如下问题点:当咨询数据的件数变得庞大时,实质上不可能全部通过目检来实施目标文本的抽取。
另外,研究了在关键词检索中缩小咨询数据的方法,但是具有如下问题点:实质上不可能由人来考虑不漏掉抽取目标文本的“关键词”。
并且,具有如下问题点:在思考错误的情况下即使制作成了抽取用的“关键词”,当目标文本是多个时,各目标文本的收集精度也会产生偏差从而管理非常困难。
本发明的第1方式具有下面的结构。
多词素出现采样文章存储部,使文章标识符与由文章标识符识别的多个采样文章组的文章中共同出现的多个词素的每个词素对应地存储在存储部中。该采样文章组是例如由用户根据在上次的类似文章抽取中抽取出的类似文章组来决定的。
多词素出现抽取对象文章存储部,对由文章标识符识别的多个抽取对象文章组,按多个词素的每个词素,来抽取该多个词素共同出现的文章标识符并对应地存储在存储部中。
件数类似度算出部,按多个词素的每个词素,来算出与该多个词素对应地存储在存储部中的采样文章组的文章标识符数、和抽取对象文章组的文章标识符数的类似度。
抽取部,按照上述已算出的类似度从高到底的顺序,抽取与多个词素对应地存储在存储部中的抽取对象文章组的文章标识符。
排除部,从抽取对象文章组排除与抽取出的文章标识符以外的文章标识符对应的文章组。
目标文章决定部重复多词素出现抽取对象文章部、件数类似度算出部、抽取部、以及排除部的各处理,直到由抽取部抽取出的文章标识符数与上次的由抽取部抽取出的文章标识符数变成预先规定的差为止,将由剩余的文章标识符识别的抽取对象文章组决定为目标文章组。
通过只准备目标文本的采样,能够不关注关键词地从未分类文本组中抽取目标文本。
附图说明
图1是第1实施方式的结构图。
图2是第2实施方式的结构图。
图3是表示动作流程图以及输入输出数据的图(其1),所述动作流程图表示第2实施方式的结构的详细动作。
图4是表示动作流程图以及输入输出数据的图(其2),所述动作流程图表示第2实施方式的结构的详细动作。
图5是表示动作流程图以及输入输出数据的图(其3),所述动作流程图表示第2实施方式的结构的详细动作。
图6是表示抽取数据例和元数据例的说明图。
图7是表示各处理步骤中的各数据的结构例的图(其1)。
图8是表示各处理步骤中的各数据的结构例的图(其2)。
图9是表示各处理步骤中的各数据的结构例的图(其3)。
图10是词素分析结果文件d304的数据格式的说明图。
图11是再处理判断处理的说明图。
图12是再处理动作的说明图。
图13是使用出现差而不是件数差的理由的说明图。
图14是表示分类码文件d307的例子的图。
图15是分类处理的说明图。
图16是表示能够实现各实施方式的分类码自动制作系统的计算机的硬件结构的一个例子的图。
图17是目标文本的收集处理的说明图。
具体实施方式
下面,参照附图来详细地说明优选实施方式。
图1是第1实施方式的结构图。
多词素出现采样文章存储部101使文章标识符与由文章标识符识别的多个采样文章组18的文章中共同出现的多个词素的每个词素对应地存储在存储部107中。该采样文章组108是例如由用户根据在上次的类似文章抽取中抽取出的类似文章组110来决定的。
多词素出现抽取对象文章存储部102,对由文章标识符识别的多个抽取对象文章组109,按多个词素的每个词素来抽取这些多个词素共同出现的文章标识符并对应地存储在存储部107中。
件数类似度算出部103,按多个词素的每个词素,来算出与这些多个词素对应地存储在存储部107中的采样文章组108的文章标识符数、和抽取对象文章组109的文章标识符数之间的类似度。
抽取部104,按照上述已算出的类似度从高到底的顺序,抽取与多个词素对应地存储在存储部107中的抽取对象文章组109的文章标识符。
排除部105,从抽取对象文章组109中排除与抽取出的文章标识符以外的文章标识符对应的文章组。
类似文章决定部106,重复多词素出现抽取对象文章部102、件数类似度算出部103、抽取部104、以及排除部105的各处理直到由抽取部104抽取出的文章标识符数与由上次的抽取部104抽取出的文章标识符数变成预先规定的差为止,将由剩余的文章标识符识别的抽取对象文章组109决定为采样文章组108的类似文章组110。
图2是第2实施方式的结构图。
词素分析部201,对存储在存储部210中的分别由文章标识符识别的多个采样文章组211以及多个抽取对象文章组212进行词素分析。采样文章组211是例如由用户根据在上次的类似文章抽取中抽取出的后述类似文章组213来决定的。
词素出现文章存储部202,以词素分析结果为基础,将词素、该词素出现的文章标识符与采样文章组211以及抽取对象文章组212分别对应地存储在存储部210中。
2词素出现采样文章存储部203,抽取与多个采样文章组211的文章标识符对应地存储在存储部210中的词素,使文章标识符共同的两个词素的每个词素,与文章标识符对应地存储在存储部210中。
2词素出现抽取对象文章存储部204,针对抽取对象文章组212,按两个词素的每个词素,来从存储部210抽取与该两个词素对应地存储的文章标识符,并与两个词素对应地存储在存储部210中。
件数类似度算出部205,算出与两个词素对应地存储在存储部210中的采样文章组211的文章标识符数、和抽取对象文章组212的文章标识符数之间的类似度。
抽取部206,按照类似度从高到底的顺序,无重复地抽取与两个词素对应地存储在存储部210中的抽取对象文章组212的文章标识符直到抽取出全部的采样文章组211的文章标识符。
无效化部207,将抽取部206中不存在没有重复的文章标识符的两个词素设为处理对象外。
排除部208,从抽取对象文章组212排除与抽取出的文章标识符以外的文章标识符对应的文章组。
类似文章决定部209,重复2词素出现抽取对象文章存储部204、件数类似度算出部205、抽取部206、以及排除部208的各处理直到由抽取部206抽取出的文章标识符数与上次的由抽取部206抽取出的文章标识符数变成预先规定的差为止,将由剩余的文章标识符识别的抽取对象文章组212决定为采样文章组211的类似文章组213。
以上,根据图1所示的第1实施方式、图2所示的第2实施方式,在多个采样文章组和抽取对象文章组之间,关于从采样文章组抽取出的多个词素的组,重复执行按照这些出现文章数相近(类似度大)的顺序缩小为包含各词素的组的抽取对象文章的处理,能够从抽取对象文章组高效地抽取与采样文章组类似的目标文章。
图3~图5是表示动作流程图以及输入输出数据的图,所述动作流程图表示图2所示的第2实施方式的结构的详细动作。
下面,与图6~图15所示的说明图以及数据结构图一起依次说明其详细动作。
首先,在图3的步骤S301,作为初始设定删除词素分析结果、词素行列、抽取明细、分类码、以及再处理用元数据的各文件d303。另外,进行下述的变量设定。
变量:对抽取循环次数设定1。
变量:对选中(hit)件数设定0。
变量:对抽取数据件数设定抽取数据文件的明细数。
变量:对元数据件数设定元数据文件的明细数。
这里,抽取数据文件与图2或者图1的采样文章组211或者108对应。该抽取数据文件例如是如图6的d301所示的文本数据文件,例如表示“打印不正常”这样的分类规则。该抽取数据文件是例如由用户从作为在上次的类似文章抽取中决定的类似文章组的图6所示的元数据文件d302抽取并制作而成的。元数据文件与图2或者图1的抽取对象文章组212或者109对应。
接着,在图3的步骤S302,对抽取数据文件d301进行词素分析,其处理结果写入词素分析结果文件d304。该处理与图2的词素分析部201以及词素出现文章存储部202的各处理对应。图7(a)是假定抽取数据件数(=抽取数据文件的明细数)为10件时由步骤S302写入的词素分析结果文件d304的数据结构例的图。在“数据区分”的项目中,分别登记抽取数据/元数据。在步骤S302中,在“数据区分”项目中登记“抽取数据”。在“词素”项目中,登记经过分析的词素。在“出现明细编号”项目中,从左侧起按照抽取数据文件d301内的各明细编号(参照图6)的升序,在该明细编号的明细包含“词素”项目的词素的情况下登记1,不包含的情况下登记0。即成为图10的(a)和(b)所示的关系。
接着,在图3的步骤S303来判断抽取循环次数是否为1。在抽取循环次数为1的情况下,执行图3的步骤S304和S305。在抽取循环次数大于1的情况下,执行图3的步骤S306和S307。
在图3的步骤S304中,对元数据文件d302(参照图6)进行词素分析,其处理结果写入词素分析结果文件d304。该处理与图2的词素分析部201以及词素出现抽取对象文章存储部202的各处理对应。图7(b)是表示在步骤S304中写入的词素分析结果文件d304的数据结构例的图。在步骤S304中,在“数据区分”项目中登记“元数据”。
接着在图3的步骤305中,读入词素分析结果文件d304,根据“数据区分”项目为“抽取数据”的词条(entry)来制作组合了两个词素的词素行列,其处理结果写入词素行列文件d305。该处理与图2的2词素出现采样文章存储部203或者图1的多词素出现采样文章存储部101的处理对应。图7(c)是表示在步骤S305中制作而成的词素行列文件d305的数据结构例的图。在“组合编号”项目中登记识别各词素的组合的编号。在“组合”项目中登记两个词素的组。在“抽取数据/出现明细数”项目中,登记包含登记在“组合”项目的两个词素的抽取数据文件d301中的明细数。在“抽取数据/出现明细编号”项目中,从左侧起按照抽取数据文件d301内的各明细编号(参照图6)的升序,在该明细编号的明细包含上述两个词素的情况下登记1,在不包含的情况下登记0。上述出现明细数,能够作为词素分析结果文件d304内的“数据区分”项目为“抽取数据”的词条中与上述两个词素对应的两个词条的各“出现明细编号”项目的各位(bit)位置的各逻辑与(and)值来得到。上述出现明细编号,能够作为它们的逻辑与值成为1的合计数来得到。在词素行列文件d305中,“元数据/出现明细数”、“元数据/出现明细编号”、“出现率”的各项目为空栏。关于这些将后述。在“有效标志”项目中登记“无效”。在“抽取次数”项目中登记“1”。
关于抽取循环次数大于1的情况下执行的图3的步骤S306和S307将后述。
接着,在图3的步骤S308,从词素行列文件d305读入“抽取次数”项目的值等于变量:抽取循环次数所表示的当前的抽取次数(目前为1)、“有效标志”项目的值为“无效”的词条组。而且,针对各词条的“组合”项目所示的每个2词素,从词素分析结果文件d304取得元数据文件d302中的出现明细数和出现明细编号。这些出现明细数和出现明细编号,登记在各词条的“元数据/出现明细数”项目和“元数据/出现明细编号”项目。该处理与图2的2词素出现抽取对象文章存储部204或者图1的多词素出现抽取对象文章存储部102的处理对应。具体地说,上述出现明细数,能够作为词素分析结果文件d304内的“数据区分”项目为“元数据”的词条中与上述两个词素对应的两个词条的各“出现明细编号”项目的各位位置的各逻辑与值来得到。上述出现明细编号,能够作为它们的逻辑与值成为1的合计数来得到。图7(e)是表示在步骤S308中更新了的词素行列文件d305的数据结构例的图。
接着,由图4的步骤S309,从词素行列文件d305读入“抽取次数”项目的值等于变量:抽取循环次数所表示的当前的抽取次数(目前为1)、“有效标志”项目的值为“无效”的词条组。而且,针对每个词条,按照下式计算出现率,其结果登记在各词条的“出现率”项目。
出现率=“抽取数据/出现明细数”项目值÷“元数据/出现明细数”项目值
该处理与图2或者图1的件数类似度算出部205或者103的处理对应。图8(f)是表示在步骤S308中更新的词素行列文件d305的数据结构例的图。
该出现率越小,意味着抽取数据以外的数据越多,相反地该出现率越大,意味着抽取数据以外的数据越少。换句话说,意味着:出现率越小,该2词素在元数据中越是普遍的组合,不是抽取数据特有的组合,相反地出现率越大,该2词素在元数据中越是稀有的组合,是抽取数据特有的组合。与元数据中普遍出现(包含)的2词素相比,只在接近抽取数据的数量的元数据中出现的2词素这一方,更能够高效地缩小类似于抽取数据的数据。
该抽取数据特有的词素的组合,不限于如人们能够预想那样的组合。另外,在以抽取数据中的出现频率为基础机械地抽取出的组合中,如上述那样,在该组合是元数据中也普遍出现的组合的情况下,无法高效地缩小类似于抽取数据的数据。通过查看出现(包含)2词素组合的抽取数据以及元数据各个的数量的类似度(出现率的大小),能够判断该组合是否为抽取数据特有的组合。
接着,在图4的步骤S310,读入词素行列文件d305,读入“抽取次数”项目的值等于变量:抽取循环次数所表示的当前的抽取次数(目前为1)、“有效标志”项目的值为“无效”的词条组。而且,这些词条按照出现率的降序重新排列。图8(g)是表示在步骤S310中重新排列的词素行列文件d305的数据结构例的图。
接着,在图4的步骤S311,读入词素行列文件d305,按照“出现率”项目的值大的顺序取出“抽取次数”项目的值等于变量:抽取循环次数所表示的当前的抽取次数(目前为1)、“有效标志”项目的值为“无效”的词条,作为从步骤S311到S314为止的循环处理,对取出的词条依次执行步骤S312和S313的各处理。
即在图4的步骤S312中,判断变量:抽取数据件数和变量:选中件数是否一致。当在步骤S312中判断为选中件数没有达到抽取数据件数时,执行步骤S313和S314。当在步骤S312中判断为选中件数达到了抽取数据件数时,执行步骤S315。
在步骤S313中,从由步骤S311取出的词条取得“组合”项目、“抽取数据/出现明细数”项目、“抽取数据/出现明细编号”项目的各值,这些写入抽取明细文件d306。图8(h)是表示在步骤S313中登记的抽取明细文件d306的数据结构例的图。在这种情况下,在“出现率”项目的值为最大的词条的处理中,“出现明细数”项目的值设定为变量:选中件数。在除此之外的词条的处理中,在针对“出现明细编号”项目的每个位位置,比该词条更早登记的抽取明细文件d306中的全部词条的“出现明细编号”项目的该位位置全部为0的情况下、即只在是本次刚出现的明细的情况下,对变量:选中件数加1。另外,在取出的组合的出现明细编号全部登记在比该词条更早登记的抽取明细文件d306中的全部词条的“出现明细编号”项目的情况下,该词条不登记在抽取明细文件d306。
在图4的步骤S314中,对由步骤S311取出的下一词条,循环到步骤S312。
以上,从步骤S310到S314为止的一系列处理与图2或者图1的抽取部206的处理对应。
在上述抽取处理之后,在图4的步骤S315中,读入抽取明细文件d306,取出“组合”项目的各2词素组。而且,在词素行列文件d305中,检索“组合”项目的值与上述2词素组一致、“抽取次数”项目的值与变量:抽取循环次数的值一致的词条,该词条的“有效标志”的值更新为“有效”。该处理与图2的无效化部207的处理对应。图8(i)是表示由步骤S315更新的词素行列文件d305的数据结构例的图。
接着在图4的步骤S316中,从词素行列文件d305检索“抽取次数”项目的值与变量:抽取循环次数一致、“有效标志”项目的值为“有效”的词条,登记在该词条的“组合”项目的2词素组,与任意的分类码名以及当前的抽取循环次数一起,写入分类码文件d307。图9(j)是表示由步骤S316写入的分类码文件d307的结构例的图。
在图5的步骤S317中,从词素行列文件d305检索“抽取次数”项目的值与变量:抽取循环次数一致、“有效标志”项目的值为“有效”的词条组,取得登记在检索出的各词条的“元数据/出现明细编号”项目的各出现明细编号。而且,根据这些出现明细编号,读入元数据文件d302中的各明细,写入再处理用元数据文件d308。而且,对数组变量:再处理用元数据件数[N]设定登记在再处理用元数据文件d308中的明细数。对N设定变量:抽取循环次数的值。即能够对数组变量:再处理用元数据件数[N],登记每个抽取循环次数的再处理用元数据件数。以上的步骤S317的处理与图2或者图1的排除部208或者105的处理对应。
在图5的步骤S318中,对变量:抽取循环次数加+1。另外,对变量:选中件数设定0。并且,在词素行列文件d305中,清除各词条的“元数据/出现明细数”、“元数据/出现明细编号”、“出现率”的各项目值,对“有效标志”项目设定“无效”,对“抽取次数”设定增加的变量:抽取循环次数的值。图9(k)是表示在第1次的抽取循环结束时刻由步骤S318来更新的词素行列文件d305的数据结构例的图。
在图5的步骤S319中,在变量:抽取循环次数的值为2的情况下,判断再处理,返回到图3的步骤S303的处理。在变量:抽取循环次数的值大于2的情况下,检查下面的条件来判断是否进行再处理。
1)算出本次的再处理用元数据件数÷上次的再处理用元数据件数。
※再处理用元数据件数[N]÷再处理用元数据件数[N-1]
2)在由上述1)算出的值为阈值以上的情况下,不进行再处理,判断结束。
3)在由上述1)算出的值小于阈值的情况下,判断再处理。
※阈值将0.8设为初始值,设为能够变更的值。
通过步骤S317,针对作为有效包含抽取数据文件d301的词素的数据而得到的再处理用元数据文件d308,相对于在上次得到的再处理用元数据文件d308(第1次时为元数据文件d302),件数比小于一定比率的情况,是抽取件数比上次削减相当多的情况。另一方面,在上述件数比成为一定比率以上的情况,是抽取件数相对于上次没怎么变化的情况。而且,在前者的情况下,认为:如图12所示,使用该再处理用元数据文件d308来再次进行文章组的缩小处理时,得到更有效地只包含抽取数据文件d301的词素的数据。例如是图11(b)的比成为0.6的情况。相反地,在后者的情况下,认为该再处理用元数据文件d308收敛在几乎最优的状态。例如是图11(a)、或者(b)的比成为0.83的情况。
此外,即使初次是出现率小的2词素,元数据也随着重复而逐渐缩小,能够引起出现率变得比初次出现率大的2词素的出现率还大的情况。
例如,考虑(1)在10件的抽取数据全部、100件的元数据全部中出现的2词素的情况、(2)在10件的抽取数据内的3件、100件的元数据内的20件中出现的2词素的情况。
A)元数据为100件的情况
(1)的2词素的出现率=10÷100=0.1
(2)的2词素的出现率=3÷20=0.15
B)元数据缩小为出现(2)的词素的组合的20件的状态的情况
(1)的2词素的出现率=10÷20=0.5
(2)的2词素的出现率=3÷20=0.15
上述的例子是表示随着元数据被缩小,元数据中普遍的2词素的组合的出现率变大的状况的典型例子。
在如上述(1)那样、抽取数据中较多地出现的2词素是元数据中也较多地出现的词素的情况下,可知即使使用该2词素来抽取元数据全部件数,也无法缩小为包含抽取数据特有的词素的20件。
另一方面,多数数据中出现的词素能够认为是人们容易意识到的词素。通过重复元数据的缩小,人们无需意识用于缩小过程中的抽取数据特有的词素,而是能够将人们容易意识到的词素的组合视作缩小的元数据的抽取条件。
以上的步骤S318和S319的处理与图2或者图1的类似文章决定部209或者106的处理对应。
如以上那样,在图5的步骤S319中判断进行再处理的情况下,返回到图3的步骤S303,该判断成为“否”,执行步骤S306和S307。
在图3的步骤S306中,删除词素分析结果文件d304的“数据区分”项目成为“元数据”的全部记录。
在图3的步骤S307中,对再处理用元数据文件d308进行词素分析,其处理结果写入词素分析结果文件d304。该处理与图2的词素分析部201以及词素出现文章存储部202的各处理对应。这里的处理除了代替元数据文件d302而使用再处理用元数据文件d308之外,与图3的步骤S304的处理相同。图7(d)是表示在步骤S307中写入的词素分析结果文件d304的数据结构例的图。在步骤S307中,在“数据区分”项目中登记“元数据”。
这以后,与抽取次数为第1次的情况相同,执行图3的步骤S308以后的处理,进行基于从抽取数据文件d301抽取出的2词素组的缩小处理。
重复了以上处理的结果,当在图5的步骤S319中判断结束时,该时刻得到的再处理用元数据文件d308的内容决定为图2或者图1的类似文章组213或者110(目标文本)。
还考虑如下情况:在以上说明的实施方式中的图4的步骤S309中,利用“抽取数据/出现明细数”项目值和“元数据/出现明细数”项目值的件数差来代替出现率。然而,根据实际数据的验证结果,得到了使用出现率的分类精度好的结果。作为该理由,举出如下。
(1)当由件数差来决定分类码时,存在无法由上位来选出很好地选中抽取数据、且不怎么选中元数据的组合的问题。
(2)无法由上位来选出=成为由分类码保持的组合数增加,因此直接导致精度下降。
例如,在图13所示的例子的情况下,在“左”、“偏移”这样的2词素的组合时,出现率最大且件数差最小,成为抽取数据和元数据都是最近的结果,但是在“打印”、“偏移”这样的2词素的组合时,出现率大,成为抽取数据和元数据与第2次接近的结果,但是件数差成为大的值,导致成为抽取数据和元数据不接近的结果。在实际数据的验证中,出现率一方表示正值。
因而,在步骤S309中,最好使用出现率而不是件数差。
在通过图4的步骤S316得到的分类码文件d307中,例如图14所示,能够按照抽取次数来登记最优的2词素的组合。在这样分层次地管理的分类码应用于同种信息源的分类的情况下,能够进行如图15所示那样的处理。即首先,从分类码文件d307取出抽取次数为第1次的分类码,对同种信息源执行使用该抽取次数为第1次的分类码的缩小处理。接着,从分类码文件d307取出抽取次数为第2次的分类码,对上述第1次的抽取结果,执行使用抽取次数为第2次的分类码的缩小处理。如果抽取次数全部都是3次,则从分类码文件d307取出抽取次数为第3次的分类码,对上述第2次的抽取结果,还执行使用抽取次数为第3次的分类码的缩小处理。而且,该第3次的抽取结果输出为最终的分类结果,对此进行人工的检查。如此地得到的分类结果被替换为抽取数据,并与元数据进行比较来再制作分类码,由此能够简单地提高分类精度。
图16是表示能够实现以上说明的各实施方式的分类码自动制作系统的计算机的硬件结构的一个例子的图。
图16所示的计算机具有如下结构:具有CPU1601、存储器1602、输入装置1603、输出装置1604、外部存储装置1605、插入可移动记录介质1609的可移动记录介质驱动装置1606、以及网路连接装置1607,这些通过总线1608相互连接。同图所示的结构是能够实现上述系统的计算机的一个例子,这种计算机不限于该机构。
CPU1601进行该计算机整体的控制。存储器1602是在数据更新等时临时保存存储在外部存储装置1605(或者可移动记录介质1609)中的程序或者数据的RAM等存储器。CPU1601通过将程序读出到存储器1602进行执行,进行整体的控制。
输入装置1603例如由键盘、鼠标等以及它们的接口控制装置构成。输入装置1603检测用户的键盘、鼠标等的输入操作,将其检测结果通知CPU1601。
输出装置1604由显示装置、打印装置等以及它们的接口控制装置构成。输出装置1604,将通过CPU1601的控制送来的数据输出到显示装置、打印装置。
外部存储装置1605例如是硬盘存储装置。主要用于各种数据、程序的保存。
可移动记录介质驱动装置1606是收纳光盘、SDRAM、小型闪烁(compact flash)(注册商标)等可移动记录介质1609的装置,具有辅助外部存储装置1605的作用。
网络连接装置1607是例如用于连接LAN(局域网络)或者WAN(广域网络)的通信线路的装置。
各实施方式的系统是通过由CPU1601执行搭载了图1或者图2所示的各模块的功能、或者与图3~图5所示的动作流程图的处理对应的功能的程序来实现的。该程序既可以记录在外部存储装置1605、可移动记录介质1609来发布,或者也可以使得能够通过网络连接装置1607从网络取得。另外,在各处理中使用的数据,是例如从外部存储装置1605读出到存储器1602来进行处理。
在图2以及图3之后说明的实施方式中,说明了通过2词素的组来进行文章的缩小的例子,但是如图1所示那样通过多词素的组来进行文章的缩小的情况下也能够以同样的思路来实施。
附图标记说明:
101多词素出现采样文章存储部,102多词素出现抽取对象文章存储部,103件数类似度算出部,104、206抽取部,105、208排除部,106、209类似文章决定部,107、210存储部,108、211采样文章组,109、212抽取对象文章组,110、213类似文章组,201词素分析部,202词素出现文章存储部,2032词素出现采样文章存储部,2042词素出现抽取对象文章存储部,205件数类似度算出部,207无效化部,1601CPU,1602存储器,1603输入装置,1604输出装置,1605外部存储装置,1606可移动记录介质驱动装置,1607网络连接装置,1608总线,d301抽取数据文件,d302元数据文件,d303各文件,d304词素分析结果文件,d305词素行列文件,d306抽取明细文件,d307分类码文件,d308再处理用元数据文件。

Claims (7)

1.一种文章抽取方法,包括:
多词素出现采样文章存储步骤,使所述文章标识符与由文章标识符识别的多个采样文章组的文章中共同出现的多个词素的每个词素对应地存储在存储部中;
多词素出现抽取对象文章存储步骤,对由文章标识符识别的多个抽取对象文章组,按所述多个词素的每个词素来抽取该多个词素共同出现的文章标识符并对应地存储在所述存储部中;
件数类似度算出步骤,按所述多个词素的每个词素,来算出与该多个词素对应地存储在所述存储部中的所述采样文章组的文章标识符数、和所述抽取对象文章组的文章标识符数的类似度;
抽取步骤,按照所述类似度从高到底的顺序,抽取与所述多个词素对应地存储在所述存储部中的所述抽取对象文章组的文章标识符;
排除步骤,从所述抽取对象文章组排除与所述抽取出的文章标识符以外的文章标识符对应的文章组;以及
目标文章决定步骤,重复所述多词素出现抽取对象文章存储步骤、所述件数类似度算出步骤、所述抽取步骤、以及所述排除步骤的各步骤直到由所述抽取步骤抽取出的文章标识符数与上次的由所述抽取步骤抽取出的文章标识符数变成预先规定的差为止,将由剩余的文章标识符识别的抽取对象文章组决定为目标文章组。
2.根据权利要求1所述的文章抽取方法,其特征在于,
所述抽取步骤按照所述类似度从高到底的顺序,抽取与所述多个词素对应地存储在所述存储部中的所述抽取对象文章组的文章标识符直到抽取出全部的所述采样文章组的文章标识符为止。
3.根据权利要求1所述的文章抽取方法,其特征在于,
所述抽取步骤按照类似度从高到底的顺序,无重复地依次抽取与所述多个词素对应地存储在所述存储部中的所述抽取对象文章组的文章标识符,直到抽取出全部的所述采样文章组的文章标识符为止,
还包含无效化步骤,所述无效化步骤将所述抽取步骤中不存在没有重复的文章标识符的所述多个词素设为处理对象外。
4.根据权利要求1所述的文章抽取方法,其特征在于,
所述采样文章组是由用户根据在上次的类似文章抽取中抽取出的类似文章组来决定的。
5.一种文章抽取方法,其特征在于,包括:
词素分析步骤,对存储在存储部中的分别由文章标识符识别的多个采样文章组以及多个抽取对象文章组进行词素分析;
词素出现文章存储步骤,以所述词素分析结果为基础,将词素、该词素出现的文章标识符与所述采样文章组以及抽取对象文章组分别对应地存储在所述存储部中;
2词素出现采样文章存储步骤,抽取与所述多个采样文章组的文章标识符对应地存储在所述存储部中的词素,使所述文章标识符与所述文章标识符共同的两个词素的每个词素对应地存储在存储部中;
2词素出现抽取对象文章存储步骤,对所述抽取对象文章组,按所述两个词素的每个词素,从所述存储部抽取与该两个词素对应地存储的文章标识符,并与该两个词素对应地存储在所述存储部中;
件数类似度算出步骤,算出与所述两个词素对应地存储在所述存储部中的所述采样文章组的文章标识符数、和所述抽取对象文章组的文章标识符数的类似度;
抽取步骤,按照所述类似度从高到底的顺序,无重复地抽取与所述两个词素对应地存储在所述存储部中的所述抽取对象文章组的文章标识符,直到抽取出全部的所述采样文章组的文章标识符为止;
无效化步骤,将所述抽取步骤中不存在没有重复的文章标识符的所述两个词素设为处理对象外;
排除步骤,从所述抽取对象文章组排除与所述抽取出的文章标识符以外的文章标识符对应的文章组;以及
目标文章决定步骤,重复所述2词素出现抽取对象文章存储步骤、所述件数类似度算出步骤、所述抽取步骤、以及所述排除步骤的各步骤,直到由所述抽取步骤抽取出的文章标识符数与上次的由所述抽取步骤抽取出的文章标识符数变成预先规定的差为止,将由剩余的文章标识符识别的抽取对象文章组决定为目标文章组。
6.一种文章抽取装置,其特征在于,包括:
多词素出现采样文章存储部,使所述文章标识符与由文章标识符识别的多个采样文章组的文章中共同出现的多个词素的每个词素对应地存储在存储部中;
多词素出现抽取对象文章存储部,对由文章标识符识别的多个抽取对象文章组,按所述多个词素的每个词素,来抽取该多个词素共同出现的文章标识符并对应地存储在所述存储部中;
件数类似度算出部,按所述多个词素的每个词素,来算出与该多个词素对应地存储在所述存储部中的所述采样文章组的文章标识符数、和所述抽取对象文章组的文章标识符数的类似度;
抽取部,按照所述类似度从高到底的顺序,抽取与所述多个词素对应地存储在所述存储部中的所述抽取对象文章组的文章标识符;
排除部,从所述抽取对象文章组排除与所述抽取出的文章标识符以外的文章标识符对应的文章组;以及
目标文章决定部,重复所述多词素出现抽取对象文章存储部、所述件数类似度算出部、所述抽取部、以及所述排除部的各处理直到由所述抽取部抽取出的文章标识符数与上次的由所述抽取部抽取出的文章标识符数变成预先规定的差为止,将由剩余的文章标识符识别的抽取对象文章组决定为目标文章组。
7.一种文章抽取装置,其特征在于,包括:
词素分析部,对存储在存储部中的分别由文章标识符识别的多个采样文章组以及多个抽取对象文章组进行词素分析;
词素出现文章存储部,以所述词素分析结果为基础,将词素、该词素出现的文章标识符与所述采样文章组以及抽取对象文章组分别对应地存储在所述存储部中;
2词素出现采样文章存储部,抽取与所述多个采样文章组的文章标识符对应地存储在所述存储部中的词素,使所述文章标识符共同的两个词素的每个词素,与所述文章标识符对应地存储在存储部中;
2词素出现抽取对象文章存储部,对所述抽取对象文章组,按所述两个词素的每个词素,从所述存储部抽取与该两个词素对应地存储的文章标识符,并与该两个词素对应地存储在所述存储部中;
件数类似度算出部,算出与所述两个词素对应地存储在所述存储部中的所述采样文章组的文章标识符数、和所述抽取对象文章组的文章标识符数的类似度;
抽取部,按照所述类似度从高到底的顺序,无重复地抽取与所述两个词素对应地存储在所述存储部中的所述抽取对象文章组的文章标识符,直到抽取出全部的所述采样文章组的文章标识符为止;
无效化部,将所述抽取部中不存在没有重复的文章标识符的所述两个词素设为处理对象外;
排除部,从所述抽取对象文章组排除与所述抽取出的文章标识符以外的文章标识符对应的文章组;以及
目标文章决定部,重复所述2词素出现抽取对象文章存储部、所述件数类似度算出部、所述抽取部、以及所述排除部的各处理,直到由所述抽取部抽取出的文章标识符数与上次的由所述抽取部抽取出的文章标识符数变成预先规定的差为止,将由剩余的文章标识符识别的抽取对象文章组决定为目标文章组。
CN200980137926.2A 2008-10-03 2009-10-02 文章抽取方法、文章抽取装置 Expired - Fee Related CN102165443B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008258776A JP5206296B2 (ja) 2008-10-03 2008-10-03 類似文章抽出プログラム、方法、装置
JP2008-258776 2008-10-03
PCT/JP2009/005126 WO2010038481A1 (ja) 2008-10-03 2009-10-02 文章抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、文章抽出方法、文章抽出装置

Publications (2)

Publication Number Publication Date
CN102165443A CN102165443A (zh) 2011-08-24
CN102165443B true CN102165443B (zh) 2013-05-15

Family

ID=42073259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980137926.2A Expired - Fee Related CN102165443B (zh) 2008-10-03 2009-10-02 文章抽取方法、文章抽取装置

Country Status (4)

Country Link
US (1) US20110172991A1 (zh)
JP (1) JP5206296B2 (zh)
CN (1) CN102165443B (zh)
WO (1) WO2010038481A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110251973A1 (en) * 2010-04-08 2011-10-13 Microsoft Corporation Deriving statement from product or service reviews
CN105302913B (zh) * 2015-11-12 2018-09-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN106815201B (zh) * 2015-12-01 2021-06-08 北京国双科技有限公司 一种自动判定裁判文书判决结果的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466083A (zh) * 2002-06-10 2004-01-07 住友电气工业株式会社 关键词提取装置和信息检索装置
US20050154690A1 (en) * 2002-02-04 2005-07-14 Celestar Lexico-Sciences, Inc Document knowledge management apparatus and method
CN1942877A (zh) * 2004-03-31 2007-04-04 松下电器产业株式会社 信息提取系统
US20090018820A1 (en) * 2007-07-11 2009-01-15 Yoshinori Sato Character String Anonymizing Apparatus, Character String Anonymizing Method, and Character String Anonymizing Program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
JP3930138B2 (ja) * 1998-02-27 2007-06-13 株式会社東芝 情報解析方法および情報解析プログラムを記憶した媒体
US6654744B2 (en) * 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP4017354B2 (ja) * 2000-04-17 2007-12-05 富士通株式会社 情報分類装置および情報分類プログラム
US7295965B2 (en) * 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP4025181B2 (ja) * 2002-11-19 2007-12-19 株式会社山武 文書管理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050154690A1 (en) * 2002-02-04 2005-07-14 Celestar Lexico-Sciences, Inc Document knowledge management apparatus and method
CN1466083A (zh) * 2002-06-10 2004-01-07 住友电气工业株式会社 关键词提取装置和信息检索装置
CN1942877A (zh) * 2004-03-31 2007-04-04 松下电器产业株式会社 信息提取系统
US20090018820A1 (en) * 2007-07-11 2009-01-15 Yoshinori Sato Character String Anonymizing Apparatus, Character String Anonymizing Method, and Character String Anonymizing Program

Also Published As

Publication number Publication date
JP5206296B2 (ja) 2013-06-12
WO2010038481A1 (ja) 2010-04-08
JP2010092108A (ja) 2010-04-22
US20110172991A1 (en) 2011-07-14
CN102165443A (zh) 2011-08-24

Similar Documents

Publication Publication Date Title
Kadhim et al. Text document preprocessing and dimension reduction techniques for text document clustering
CN106874292B (zh) 话题处理方法及装置
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN112597283B (zh) 通知文本信息实体属性抽取方法、计算机设备及存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN106021572A (zh) 二元特征词典的构建方法和装置
Pal et al. Resume classification using various machine learning algorithms
Ranjan et al. Document classification using lstm neural network
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
Thakur et al. A review on text based emotion recognition system
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus
CN102165443B (zh) 文章抽取方法、文章抽取装置
Angeli et al. Stanford’s distantly supervised slot filling systems for KBP 2014
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
Guadie et al. Amharic text summarization for news items posted on social media
CN110674283A (zh) 文本摘要的智能抽取方法、装置、计算机设备及存储介质
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
KR102052823B1 (ko) 잠재 디리클레 할당을 이용한 토픽 모델 자동화 방법 및 장치
Al-Anzi An effective hybrid stochastic gradient descent arabic sentiment analysis with partial-order microwords and piecewise differentiation
CN109344254A (zh) 一种地址信息分类方法及装置
Sakshi et al. Machine learning and non-machine learning methods in mathematical recognition systems: Two decades’ systematic literature review
Rohman et al. Automatic detection of argument components in text using multinomial Nave Bayes clasiffier

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130515

Termination date: 20141002

EXPY Termination of patent right or utility model