CN102144229B - 用于从具有文本段的文档中提取术语的系统 - Google Patents
用于从具有文本段的文档中提取术语的系统 Download PDFInfo
- Publication number
- CN102144229B CN102144229B CN2009801345355A CN200980134535A CN102144229B CN 102144229 B CN102144229 B CN 102144229B CN 2009801345355 A CN2009801345355 A CN 2009801345355A CN 200980134535 A CN200980134535 A CN 200980134535A CN 102144229 B CN102144229 B CN 102144229B
- Authority
- CN
- China
- Prior art keywords
- mentioned
- language
- nominal
- extracted
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于从具有文本段的文档中提取术语的系统,其按有助于理解文档概要或理解内容的观点来对该提取出的术语进行分类,并将该分类的术语提示给使用者。计算机系统使用第一文本处理信息,从具有文本段的文档数据中提取名词性词语,使用第二文本处理信息,从该文档数据或包含以与该文档数据相同的语言记载的文本数据的语料库中提取关于该名词性词语的术语候选,为了决定该名词性词语和该术语候选是属于多个种类中的哪一种类的名词性词语,而利用第三文本处理信息选择对多个种类中的哪个种类给予权重,对该名词性词语和该术语候选分别就上述所选择的种类给予权重,根据上述给予的权重,决定该名词性词语和该术语候选所属的该种类;与所决定的种类关联而输出该名词性词语和该术语候选。
Description
技术领域
本发明涉及用于从具有文本段的文档数据中提取术语的计算机系统及其方法、以及计算机程序。
背景技术
现在,技术文档、例如要求书和规格书的量很大。因此,需要用于尽快理解技术文档内容的技术。为此,提取并提示技术文档中出现的术语是较为有用的解决对策。目前,提出很多从文本提取术语的方法。但仅凭简单地提取术语,也只是列举出大量术语而已。而且,通常的提取术语的方法并不特别针对技术文档,在提取了术语后,用户还必须手动对术语种类进行分类,因此它并不实用。此外,在利用NE(named entity)提取技术、即利用用于自动提取人名、地名及组织名这样的特定种类术语的技术的情况下,为了提取术语,字典和提取规则的完备必不可少。但是,用户要详查技术文档的内容、判断哪个会成为术语,并且做成字典,这样的作业需要很高的成本。
在下述专利文献1中记载了如下技术:从文本数据中提取规定的语句,根据语句的文字、词类和语法信息中的至少一个计算预重要度的预重要度计算,以及与在文本数据中语句的出现状态对应地由预重要度计算正式重要度。
专利文献1:日本特开平10-177575号公报
发明内容
本发明的目的在于提供一种如下的方法:发挥文档尤其是技术文档的语言上及结构上的特点进行术语的提取,从有助于文档的概要理解或内容理解的观点出发自动将该提取的术语分类,并且将该分类的术语向使用者提示。
本发明提供一种用于从具有文本段的文档数据中提取术语的计算机系统。该计算机系统包括:
第一提取部,其使用第一文本处理信息,从上述文档数据中提取名词性词语;
第二提取部,其使用第二文本处理信息,从上述文档数据或包含以与该文档数据相同的语言记载的文档数据的语料库中提取关于上述提取出的名词性词语的术语候选;
加权部,为了决定上述提取出的名词性词语和上述提取出的术语候选是属于多个种类中的哪一种类的名词性词语,而利用第三文本处理信息判断对多个种类中的哪个种类给予权重,对上述提取出的名词性词语和上述提取出的术语候选分别就上述所选择的种类给予权重;
决定部,根据上述给予的权重,决定上述提取出的名词性词语和上述提取出的术语候选所属的上述种类;
输出部,按照上述决定,将上述提取出的名词性词语和上述提取出的术语候选与上述决定的种类关联而输出。
本发明的一个实施方式中,
上述加权部使用第四文本处理信息多次重复进行上述选择和上述权重的给予,
上述决定部对于上述提取出的名词性词语和上述提取出的术语候选比较上述多个种类的各权重,决定上述提取出的名词性词语和上述提取出的术语候选分别是属于被给予最高权重的种类的名词性词语。
本发明的一个实施方式中,上述第一文本处理信息是文档的结构信息、语言的表层结构信息、语言的词类信息和由词素解析获得的信息,上述第二文本处理信息、上述第三文本处理信息和上述第四文本处理信息是单词的关联信息。
本发明的一个实施方式中,上述第一提取部对上述文档数据进行词素解析,提取名词性词语(Ki(i=1、2、...、n)),按照该提取的Ki在文档文件中存在的位置和比例中的至少一者来对Ki分别给予权重。
本发明的一个实施方式中,按照上述Ki在文档文件中存在的位置来给予权重是指按照Ki是否位于句中、是否位于文本段中、或是否位于括号中来给予权重,
按照上述Ki在文档文件中存在的比例给予权重是指,按照Ki文本段中或括号中字符串的规定比例给予权重。
本发明的一个实施方式中,
在上述Ki的上述位置不在句中时,
判断该Ki是否占有整个文本段,
在该Ki占有整个文本段时,对该Ki给予分数W,
在该Ki没占有整个文本段时,对该Ki给予分数Y,
在上述Ki的上述位置在句中时,
判断该Ki是否位于该句中的括号中,且占有括号中的整个字符串,
在该Ki位于该句中的括号中且占有括号中的整个字符串时,对该Ki给予分数X,
在该Ki没有位于该句中的括号中或不占有括号中的整个字符串时,对该Ki给予分数Z,
在此,分数W>分数X>分数Y>分数Z。
本发明的一个实施方式中,
上述第一提取部对上述Ki汇总相同的名词性词语作为Si(i=1、2、...、k)(n≥k),
对上述Si分别根据对各Ki给予的权重而给予权重,
提取上述Si的权重达到规定阈值以上的Si。
本发明的一个实施方式中,上述第一提取部在上述Si的权重在规定的阈值范围内时,将该Si的权重设定为0。
本发明的一个实施方式中,关于上述Si的字符种类是否适合,在上述Si的字符种类仅是数字、符号或平假名中任一者时,或在仅是数字和符号的组合时,判断为不适合。
本发明的一个实施方式中,上述第一提取部判断上述Si各自的权重是否在规定的阈值范围内,
在该Si的权重在规定的阈值范围内时,判断是否适于作为该Si的字符种类,
在适合时,将该Si作为应提取的名词性词语,
在不适合时,将该Si的权重设定为0,
在该Si的权重不在规定的阈值范围内时,将该Si的权重设定为0。
本发明的一个实施方式中,关于上述Si的字符种类是否适合,在上述Si的字符种类仅是数字、符号或平假名中任一者时,或在仅是数字和符号的组合时,判断为不适合。
本发明的一个实施方式中,上述第二提取部从上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中提取满足规定语法条件的术语候选。
本发明的一个实施方式中,提取满足上述规定语法条件的术语候选是指,在上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中,识别将上述提取出的名词性词语作为直接宾语的动词性词语,提取成为与该识别的动词性词语相同的动词性词语的宾语的名词性词语。
本发明的一个实施方式中,上述加权部求出在上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中,所有格语分别与上述提取出的名词性词语和上述提取出的术语候选相关联的次数,根据该求出的次数是否在规定的阈值范围内,选择给予权重的种类。
本发明的一个实施方式中,上述加权部还对所选择的种类给予权重。
本发明的一个实施方式中,上述多个种类是组件类型(Vc)、参数类型(Vp),以及模式类型(Vs),
上述Vc表示术语属于组件的程度,
上述Vp表示术语表示参数的程度,
上述Vs表示术语表示模式的程度。
本发明的一个实施方式中,上述加权部在关于上述提取出的名词性词语求出的次数低于规定阈值时,对关于上述提取出的名词性词语的上述Vc给予分数A,
在关于上述提取出的名词性词语求出的次数为规定阈值以上时,对关于上述提取出的名词性词语的上述Vp和上述Vs给予分数A。
本发明的一个实施方式中,上述加权部在关于上述提取出的术语候选求出的次数低于规定阈值时,对关于上述提取出的术语候选的上述Vs给予分数B,
在关于上述提取出的术语候选求出的次数为规定阈值以上时,对关于上述提取出的术语候选的上述Vp和上述Vs给予分数B,
在此,分数A>分数B。
本发明的一个实施方式中,上述第二提取部从上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库,识别将上述提取出的名词性词语作为直接宾语的动词性词语,提取成为与该识别的动词性词语相同的动词性词语的宾语的名词性词语NPi,
上述加权部在该提取的名词性词语NPi包含数字时,对关于上述提取出的名词性词语的上述Vp给予分数C。
本发明的一个实施方式中,上述加权部在上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中,求出所有格语与在上述提取出的名词性词语中的出现在上述文档数据的文本段的第一行的名词性词语ti相关联的次数,
根据该求出的次数是否位于规定的阈值范围内,选择给予权重的种类。
本发明的一个实施方式中,上述加权部在关于上述名词性词语ti求出的次数低于规定阈值时,对与上述名词性词语ti对应的上述提取出的名词性词语的上述Vs给予分数D,
在关于上述名词性词语ti求出的次数高于规定阈值时,对与上述名词性词语ti对应的上述提取出的名词性词语的上述Vc给予分数A。
本发明的一个实施方式中,上述加权部与能成为模式的术语(S-seed)的列表输入响应,在上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中,求出接续在该S-seed后面的名词性词语、和作为所有格语与该S-seed相关联的名词性词语的频率,
将接续在该S-seed后面的名词性词语、和作为所有格语与该S-seed相关联的名词性词语中的、上述频率为1以上的名词性词语列表而保存。
本发明的一个实施方式中,上述加权部在上述提取出的名词性词语中的出现在上述文档数据的文本段的第一行的名词性词语ti与存储于上述列表中的名词性词语一致时,对关于与上述名词性词语ti对应的上述提取出的名词性词语的上述Vc给予分数D。
本发明的一个实施方式中,上述决定部对于上述提取出的名词性词语和上述提取出的术语候选,比较上述Vc、上述Vp和上述Vs的各种类的权重,决定上述提取出的名词性词语和上述提取出的术语候选分别是属于被给予最高权重的种类的名词性词语。
本发明提供一种用于从具有文本段的文档数据中提取术语的方法,该方法包括如下步骤:
使用第一文本处理信息,从上述文档数据中提取名词性词语,并将该提取的名词性词语保存于存储部;
使用第二文本处理信息,从上述文档数据或包含以与该文档数据相同的语言记载的文档数据的语料库中提取关于上述提取出的名词性词语的术语候选,并将该提取的名词性词语保存于存储部;
为了决定上述提取出的名词性词语和上述提取出的术语候选是属于多个种类中的哪一种类的名词性词语,而利用第三文本处理信息选择对多个种类中的哪个种类给予权重,对上述提取出的名词性词语和上述提取出的术语候选分别就上述所选择的种类给予权重,将该给予的权重语保存于上述存储部;
根据上述给予的权重,决定上述提取出的名词性词语和上述提取出的术语候选所属的上述种类;
按照上述决定,将上述提取出的名词性词语和上述提取出的术语候选与上述决定的种类关联而输出到显示装置上。
本发明的一个实施方式中,将上述给予的权重语保存于上述存储部的步骤还包括:使用第四文本处理信息多次重复进行上述选择和上述权重的给予,
上述决定步骤对于上述提取出的名词性词语和上述提取出的术语候选比较上述多个种类的各权重,决定上述提取出的名词性词语和上述提取出的术语候选分别是属于被给予最高权重的种类的名词性词语。
本发明的一个实施方式中,提取上述名词性词语的步骤包括如下步骤:
对上述文档数据进行词素解析,提取名词性词语(Ki(i=1、2、...、n)),
按照该提取的Ki在文档文件中存在的位置和比例中的至少一者来对Ki分别给予权重。
本发明的一个实施方式中,按照上述Ki在文档文件中存在的位置给予权重的步骤包括按照Ki是否位于句中、是否位于文本段中、或是否位于括号中来给予权重,
按照上述Ki在文档文件中存在的比例给予权重的步骤包括,按照Ki文本段中或括号中字符串的规定比例给予权重。
本发明的一个实施方式中,
在上述Ki的上述位置不在句中时,
判断该Ki是否占有整个文本段,
在该Ki占有整个文本段时,对该Ki给予分数W,
在该Ki没占有整个文本段时,对该Ki给予分数Y,
在上述Ki的上述位置在句中时,
判断该Ki是否位于该句中的括号中,且占有括号中的整个字符串,
在该Ki位于该句中的括号中且占有括号中的整个字符串时,对该Ki给予分数X,
在该Ki没有位于该句中的括号中或不占有括号中的整个字符串时,对该Ki给予分数Z。
本发明的一个实施方式中,
提取上述名词性词语的步骤包括如下步骤:对上述Ki汇总相同的名词性词语作为Si(i=1、2、...、k)(n≥k),
对上述Si分别根据对各Ki给予的权重而给予权重,
提取上述Si的权重达到规定阈值以上的Si。
本发明的一个实施方式中,提取上述名词性词语的步骤包括如下步骤:在上述Si的权重在规定的阈值范围内时,将该Si的权重设定为0。
本发明的一个实施方式中,提取上述名词性词语的步骤包括如下步骤:关于上述Si的字符种类是否适合,在上述Si的字符种类仅是数字、符号或平假名中任一者时,或在仅是数字和符号的组合时,判断为不适合。
本发明的一个实施方式中,提取上述名词性词语的步骤包括如下步骤:判断上述Si各自的权重是否在规定的阈值范围内,
在该Si的权重在规定的阈值范围内时,
判断是否适于作为该Si的字符种类,
在适合时,将该Si作为应提取的名词性词语,
在不适合时,将该Si的权重设定为0,
在该Si的权重不在规定的阈值范围内时,将该Si的权重设定为0。
本发明的一个实施方式中,关于上述Si的字符种类是否适合,在上述Si的字符种类仅是数字、符号或平假名中任一者时,或在仅是数字和符号的组合时,判断为不适合。
本发明的一个实施方式中,使用上述第二文本处理信息提取上述术语候选的步骤包括如下步骤:从上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中提取满足规定语法条件的术语候选。
本发明的一个实施方式中,提取满足上述规定语法条件的术语候选的步骤包括:在上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中,识别将上述提取出的名词性词语作为直接宾语的动词性词语,提取成为与该识别的动词性词语相同的动词性词语的宾语的名词性词语。
本发明的一个实施方式中,上述给予权重的步骤包括:求出在上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中,所有格语分别与上述提取出的名词性词语和上述提取出的术语候选相关联的次数,根据该求出的次数是否在规定的阈值范围内,选择给予权重的种类。
本发明的一个实施方式中,上述给予权重的步骤包括:对所选择的种类给予权重。
本发明的一个实施方式中,上述给予权重的步骤包括:在关于上述提取出的名词性词语求出的次数低于规定阈值时,对关于上述提取出的名词性词语的上述Vc给予分数A,
在关于上述提取出的名词性词语求出的次数为规定阈值以上时,对关于上述提取出的名词性词语的上述Vp和上述Vs给予分数A。
本发明的一个实施方式中,上述给予权重的步骤包括:在关于上述提取出的术语候选求出的次数低于规定阈值时,对关于上述提取出的术语候选的上述Vs给予分数B,
在关于上述提取出的术语候选求出的次数为规定阈值以上时,对关于上述提取出的术语候选的上述Vp和上述Vs给予分数B。
本发明的一个实施方式中,上述提取术语候选的步骤包括:从上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库,识别将上述提取出的名词性词语作为直接宾语的动词性词语,提取成为与该识别的动词性词语相同的动词性词语的宾语的名词性词语NPi,
上述给予权重的步骤包括:在该提取的名词性词语NPi包含数字时,对关于上述提取出的名词性词语的上述Vp给予分数C。
本发明的一个实施方式中,上述给予权重的步骤包括:在上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中,求出所有格语与在上述提取出的名词性词语中的出现在上述文档数据的文本段的第一行的名词性词语ti相关联的次数,
根据该求出的次数是否位于规定的阈值范围内,选择给予权重的种类。
本发明的一个实施方式中,上述给予权重的步骤包括:在关于上述名词性词语ti求出的次数低于规定阈值时,对与上述名词性词语ti对应的上述提取出的名词性词语的上述Vs给予分数D,
在关于上述名词性词语ti求出的次数高于规定阈值时,对与上述名词性词语ti对应的上述提取出的名词性词语的上述Vc给予分数A。
本发明的一个实施方式中,上述给予权重的步骤包括:与能成为模式的术语(S-seed)的列表输入响应,在上述文档数据或包含以与该文档数据相同的语言记载的文本段的语料库中,求出接续在该S-seed后面的名词性词语、和作为所有格语与该S-seed相关联的名词性词语的频率,
将接续在该S-seed后面的名词性词语、和作为所有格语与该S-seed相关联的名词性词语中的、上述频率为1以上的名词性词语列表而保存。
本发明的一个实施方式中,上述给予权重的步骤包括:在上述提取出的名词性词语中的出现在上述文档数据的文本段的第一行的名词性词语ti与存储于上述列表中的名词性词语一致时,对关于与上述名词性词语ti对应的上述提取出的名词性词语的上述Vc给予分数D。
本发明的一个实施方式中,进行上述决定的步骤包括:对于上述提取出的名词性词语和上述提取出的术语候选,比较上述Vc、上述Vp和上述Vs的各种类的权重,决定上述提取出的名词性词语和上述提取出的术语候选分别是属于被给予最高权重的种类的名词性词语。
本发明还提供一种用于从具有文本段的文档数据中提取术语的方法,该方法包括如下步骤:
使用由词素解析得到的信息和语言的词类信息,从保存于存储部的上述文档数据中提取名词性词语,使用文档的结构信息和语言的表层结构信息中的至少一者从上述提取出的名词性词语提取满足规定条件的词语(以下为种子词表达),将该种子词表达保存于存储部;
使用第一单词关联信息,从上述文档数据或包含以与该文档数据相同的语言记载的文档数据的语料库,提取关于上述种子词表达的术语候选,将该提取的术语候选保存于上述存储部;
为了决定上述种子词表达和上述术语候选是属于多个种类中的哪一种类的名词性词语,而利用第二单词关联信息选择对多个种类中的哪个种类给予权重,对上述种子词表达和上述术语候选分别就上述所选择的种类给予权重,将该给予的权重语保存于上述存储部,其中上述多个种类是组件类型(Vc)、参数类型(Vp),以及模式类型(Vs),上述Vc表示术语属于组件的程度,上述Vp表示术语表示参数的程度,上述Vs表示术语表示模式的程度;
使用第三单词关联信息重复多次上述选择和上述给予权重;
对于上述种子词表达和上述术语候选比较上述种类Vc、Vp和Vs的各权重,决定上述种子词表达和上述术语候选分别是属于被给予最高权重(最大值(Vc、Vp、Vs))的种类的名词性词语;
按照上述决定,将上述提取出的名词性词语和上述提取出的术语候选与上述决定的种类关联而输出到显示装置上。
本发明还提供用于从具有文本段的文档数据中提取术语的计算机程序,该计算机程序包括使计算机执行上述方法的任一方法的各步骤。
本发明实施方式的计算机系统,从文档数据中提取名词性词语,决定该名词性词语是属于例如三个种类中哪一种类的名词性词语,根据所决定的种类输出上述提取出的名词性词语。根据所决定的种类输出上述提取出的名词性词语,可以给予使用者有助于理解文档的线索。
附图说明
图1A表示技术文档、例如要求书和规格书中所含的信息。
图1B表示本发明实施方式的文本段的例子。
图1C表示本发明实施方式的名词性词语的多个种类的例子。
图2表示本发明实施方式的计算机系统的框图。
图3A表示本发明实施方式的、表示种子词表达的提取的流程图。
图3B表示本发明实施方式的、表示种子词表达的提取的流程图。
图4A表示本发明实施方式的、提取术语候选时和给予权重时使用的文本处理信息。
图4B表示本发明实施方式的、给予权重时使用的种子词接续词的列表的生成。
图5A表示本发明实施方式的、对种子词表达给予权重的例子。
图5B表示本发明实施方式的、术语候选的提取及对该术语候选给予权重的例子。
图5C表示本发明实施方式的、对种子词表达和术语候选给予权重的例子。
图5D表示本发明实施方式的、对种子词表达和术语候选给予权重的例子。
图5E表示本发明实施方式的、对种子词表达和术语候选给予权重的例子。
图5F表示本发明实施方式的名词性词语种类的决定。
图6A表示采用以往方法的名词性词语的提取结果。
图6B表示在本发明的实施例中提取种子词表达的结果。
图6C表示在本发明的实施例中利用文本处理信息根据种子词表达提取了术语候选的结果。
图6D表示本发明实施例的权重的计算过程。
图6E对比示出以往的名词性词语提取的结果与本发明实施例的名词性词语提取的结果。
图7表示本发明实施方式的计算机硬件的框图。
具体实施方式
在本发明的实施方式中,“文档数据”是文档的电子数据,只要具有文本段,可以是任何种类的文档数据。文档数据例如包括用文字处理软件作成的文档数据、制表软件作成的文档数据、演示(presentation sheet)软件作成的文档数据、或者包括附图及文档数据的文档数据,但不限于此。
“文档”是包括例如要求书、规格书、产品说明书及设计文档的技术文档,但不限于此。
在本发明的实施方式中,“文本段”例如是结构上可识别的片段,是以文档数据的构成要素的最小单位包含文本的片段。在片段即使与前后左右的片段连结其意思也不改变的情况下,该片段是文本段。在片段与前后左右的片段连结其意思发生改变的情况下,该片段不是文本段。
“结构上可识别的片段”如下述图1B所示,包括用句点划分的片段、用标记单位划分的片段、用换行划分的片段、用段落划分的片段、由表的单元格构成的片段、目录片段或图中的文本段,但不限于此。
在本发明的实施方式中,“名词”的定义可能根据语言而不同,对于日语,名词属于独立词,指不活用的词类。名词包括单名词和复合名词。
日语包括如下分类的名词:固有名词、代名词、数量词(数名词)、形式名词及普通名词。
英语包括如下分类的名词:固有名词、普通名词、集合名词、物质名词、抽象名词、可数名词及不可数名词。
在本实施方式中,“语料库”是指所集成的文本(文档)数据。语料库的一例是机器可读语言文档的集合体,是由电子化的自然语言的文章构成的庞大的文本段,但不限于此。在本发明的实施方式中,语料库使用以与上述文档数据相同语言记载的语料库,因此需要根据上述文档数据所使用的语言而变更。为了进行高效率的术语提取,语料库可以按照上述文档数据的内容,使用特定领域的语料库(以下也称为参照语料库)。
语料库存储于本发明实施方式的计算机系统内的存储装置内、或与该系统连接的存储装置内,或者经由网络与该系统连接的服务器系统、例如数据库服务器系统、代理服务器系统、供给服务器系统的存储装置内。
在本发明的实施方式中,“文本处理信息”是通过文本处理、例如语法分析而得到的信息。“文本处理信息”例如包括文档的结构信息、语言的表层结构信息、语言的词类信息及由词素解析获得的信息、以及单词的关联信息。
在本发明的实施方式中,“第一文本处理信息”特别指文档的结构信息、语言的表层结构信息、语言的词类信息及由词素解析获得的信息或这些信息的组合。但是,作为第一文本处理信息,也可以使用单词的关联信息。
文档的结构信息是指某一文本段在文档数据中的位置信息、或者某一文本段所存在的文档中目标的分类信息。某一文本段在文档数据中的位置信息例如包括章节等的层次结构。某一文本段所存在的文档中目标的分类信息例如包括段落、标题及表的单元格。
在下述所示的图3A中,文档的结构信息例如在步骤304的判断名词性词语是否占有整个文本段的判断中使用。
语言的表层结构信息是文档数据中出现的未加工的文本信息,是不进行例如置换为标准形式等处理的文本信息。未加工的文本信息是指不进行词素解析,凭字符种类等就能明白的信息,例如若是单词,则是其直接出现的形式。例如,“1”是数字,“あ”是平假名,“■”是符号。
在下述的图3B中,语言的表层结构信息例如在步骤307的名词性词语是否位于括号中的判断、以及步骤314的是否适合作为字符种类子词的术语的判断中使用。
语言的词类信息是在通过词素解析分割为词素、并且进行对词素给予词类的处理后得知的信息。
在下述所示的图3A中,语言的词类信息使用在步骤301的名词性词语的提取中。
由词素解析得到的信息是通过进行词素解析而得到的信息。词素解析是将用自然语言书写的文章分割为有意义的语言的最小单位即词素。
在下述所示的图3A中,语言的词类信息例如在步骤301的名词性词语的提取、以及步骤303的名词性词语是否位于文档数据中的句中的判断中使用。
在本发明的实施方式中,“第二文本处理信息”、“第三文本处理信息”及“第四文本处理信息”分别是单词的关联信息。单词的关联信息是自然文是否满足规定语法条件的信息。但是,作为“第二文本处理信息”、“第三文本处理信息”及“第四文本处理信息”也可以使用文档的结构信息、语言的表层结构信息、语言的词类信息及由词素解析得到的信息中的任一信息。
关于单词的关联信息例如可举出下述图4所示的以下例子。
1.名词性词语与所有格语相关联,或者名词性词语与作为所有格的名词性词语相关联;
(例:名词A(NounA)的(所有格)名词B(NounB))
2.名词性词语与动词性词语直接相关联,或者与作为动词性词语宾语的名词性词语相关联;
(例:(名词P(NounP),名词Q(NounQ),名词R(NounR),...)→动词X(VerbX)(与动词X(VerbX)直接相关联))。
3.将名词作为直接宾语与动词性词语相关联,或者与成为动词性词语的直接宾语的名词性词语相关联;
(例:对名词K(NounK)进行(直接宾语)动词(Verb))。
在本发明的实施方式中,在对关于所提取的名词性词语的术语候选进行提取的步骤中使用“第二文本处理信息”。
在下述所示的图5B中,在识别将名词性词语作为直接宾语的动词性词语、并提取作为与该所识别的动词性词语相同的动词性词语的宾语的名词性词语时,使用第二文本处理信息。
在对将名词性词语作为直接宾语的动词性词语的识别中,使术语言的词类信息及由词素解析得到的信息。
在本发明的实施方式中,在为了决定所提取的名词性词语及术语候选是属于多种类中的哪个种类的名词性词语、而选择对多个种类中的哪个种类给予权重中,使用“第三文本处理信息”及“第四文本处理信息”。
在下述所示的图5A中,为了调查所有格语与种子词表达si相关联的次数而使用第三或第四文本处理信息。
在下述所示的图5B中,为了调查所有格语与术语候选xij相关联的次数而使用第三或第四文本处理信息。
在下述所示的图5C中,为了识别将名词性词语s’作为直接宾语的动词性词语、并提取作为与该识别的动词性词语相同的动词性词语的宾语的名词性词语NPi,使用第三或第四文本处理信息。
在下述所示的图5D中,为了针对种子词表达中出现于文档数据中的表的第一行的术语候选ti,求出对象文档或参照语料库中所有格语与其相关联的次数,使用第三或第四文本处理信息。
在下述所示的图5E中,为了对所有种子词接续词判断是否与ti的类型一致,使用第三或第四文本处理信息。
在本发明的实施方式中,“多个种类”包括组件(component)类型(Vc)、参数类型(Vp),以及模式(schema)类型(Vs),但不限于此。也可以另外设置不是按上述这些分类的种类。也可以设置与上述这些不同名称的种类。
组件类型(Vc)表示术语属于组件的程度。所谓组件例如是表示组件(component)名、功能(作用)名的术语。
参数类型(Vp)表示术语表示参数的程度。所谓参数例如是表示属性名、数据名及参数名的术语,是仅特定的组件所具有的属性。
模式类型(Vs)表示术语表示模式的程度。所谓模式是可成为数据库的模式的术语,是所有组件具有的属性。
在本发明的实施方式中,“名词性词语及术语候选是属于多个种类中的哪一种类的名词性词语”是根据表示名词性词语及术语候选的各种类相似度的权重而给予特征。该权重是这样给予的,即,使用第三文本处理信息,进而使用第四语言处理信息,例如着眼于“●●的××”这样的表示所有关系的语言表达,认为●●是组件类型、××是参数类型的可能性较高,以此给予权重。
在本发明的实施方式中,“决定名词性词语及术语候选是属于多个种类中的哪一种类的名词性词语”是指例如在上述多个种类为上述组件类型、参数类型、及模式类型这三种的情况下,决定名词性词语及术语候选是属于三种中的哪一种类的名词。
本发明的从具有文本段的文档数据中提取术语的方法大致包括如下步骤。
步骤1:使用第一文本处理信息,从文档数据中提取名词性词语、即准确作为提取结果显示的表达(也称为种子词表达)。
如上所述,第一文本处理信息包括文档的结构信息、语言的表层结构信息、语言的词类信息及由词素解析得到的信息中任一信息。这样做的原因在于,在步骤1中,由于需要得到种子词表达即作为名词性词语的准确表达,而使用作为更可靠的信息的第一文本处理信息是有用的。
种子词表达与下述的术语候选不同,是最终作为提取结果显示的名词性词语。从该意义上讲,种子词表达是“准确表达”。
步骤2:使用第二文本处理信息,从所提取的名词性词语提取新的术语候选。
如上所述,第二文本处理信息包括单词的关联信息。这样做的原因在于,为了扩大种子词表达,使用作为放宽条件信息的第二文本处理信息是有用的。
步骤3:为了决定所提取的名词性词语及术语候选是属于多种类中的哪一种类的名词性词语,使用第三文本处理信息,至少选择一个对多个种类中的哪个种类给予权重,分别对各个种子词表达及术语候选就该所选择的种类给予权重。而且,任意地使用第四文本处理信息重复多次上述选择和上述权重给予。
如上所述,第三文本处理信息及第四语言处理信息包括单词的关联信息。这样做的原因在于,为了决定名词性词语及术语候选是属于多种类中的哪一种类的名词性词语,使用作为放宽条件信息的第三文本处理信息、进而使用第四语言处理信息是有用的。
步骤4:根据所给予的权重,决定所提取的名词性词语及术语候选的所属种类。尤其是比较多个种类的各权重,决定所提取的名词性词语及所提取的术语候选分别是属于被给予最高权重的种类的名词性词语。
根据该决定,决定所提取的名词性词语及术语候选被分类于哪一方面的名词性词语。
步骤5:对所提取的名词性词语及术语候选关联上述决定的种类并将其输出。
以下,按照附图说明本发明的实施方式。本实施方式是用于说明本发明的优选实施方式的例子,应理解并不是将本发明的保护范围限定为在此所示的实施方式。在以下的附图中,只要没有明确否定,同一附图标记表示同一对象。
图1A表示技术文档、例如系统的要求书及规格书中所含的信息。
主要是为了理解文档内容而进行该分析。
典型的要求书及规格书(101)中记载有关于行为(102)、结构(103)、要求品质(104)及制约(105)的信息。
行为(102)是指提取要求书或规格书中记述的对象系统所具有的状态及转移、以及在状态下的动作。
结构(103)是指提取构成上述对象系统的组件的结构或关系、和该组件所具有的功能。
要求品质(104)是指提取不是直接用数值表示的、品质上的要求。
制约(105)是指提取规格或目标性能等、由数值决定的规格或制约关系。
图1B表示本发明实施方式的文本段的例子。
文档数据包括一个或多个文本段。
文本段是结构上可识别的片段,例如可举出如下例子。
·用句点划分的片段(106)。文档数据可具有一个或多个用句点划分的片段(106A~106D)。关于句点,例如在日语的情况下为“。”,在其他语言的情况下为该语言的句点。
·用标记单位划分的片段(107)。文档数据可具有一个或多个用标记单位划分的片段(107A~107B)。关于标记,例如可以包括按照HTML及XML的记载方式的标记。标记通常用括号(<>)表示,但不限于此。括号通常由开始标记(<>)及其后记述的结束标记(</>)这成对的标记构成。
·用换行划分的片段(108)。文档数据可具有一个或多个用换行划分的片段(108A~108C)。关于换行,通常不在文档数据内显示,但计算机系统可利用换行代码识别换行。
·用段落划分的片段(109)。文档数据可具有一个或多个用段落划分的片段(109A~109B)。
·由表的单元格构成的片段(110)。文档数据可具有多个单元格(110A~110N)。在本发明的实施方式中,单元格的大小与提取无关。
·目录片段(111)。文档数据通常可具有一个作为文档题目的目录片段(111A)。文档数据可具有多个目录,例如按每章具有多个目录片段。
·图中的文本段(112)。是嵌入图中的文本段(112A~112B)。
图1C表示本发明实施方式的名词性词语的多个种类的例子。
在本发明的实施方式中,名词性词语的“多个种类”是根据想要从文档数据中提取的术语方面的分类。
如图1C所示,在技术文档中,该技术文档所使用的术语可被分为三个种类。由于想要在技术文档中提取的信息的种类已固定,因此可通过准备该三个种类,从而可以在理解了文档所记载内容的基础上提取所需的全部信息。但是,该分类可根据语言、作为对象的文档而变更。而且,该分类也可以根据利用目的而变更分类的名称,进而进行更细化的分类。
·组件
所谓组件例如是指表示模块(组件)名、功能(作用)名的术语。组件例如是名词性词语“电源按钮”及“速度调节功能”。
·参数
所谓参数例如是表示属性名、数据名及参数名的术语,是仅特定的组件所具有的属性。参数例如是名词性词语“最大输出数”及“最低速度”。
·模式
所谓模式是可成为数据库的模式的术语,是所有组件具有的属性。模式例如是表格栏中的栏目标题。模式例如是名词性词语“功能”、“构成要素”、“输入”及“输出”。
图2表示本发明实施方式的计算机系统的框图。
计算机系统(201)包括第一提取部(202)、第二提取部(208)、加权部(210)、决定部(211)及输出部(212)。
第一提取部(202)包括文本位置信息提取部(203)及种子词表达提取部(204)。
文本位置信息提取部(203)使用文档分析技术获得文档数据(205)中的文本及其位置信息。文本位置信息提取部(203)将所提取的文本及位置信息的各数据保存于存储介质、例如数据库(206)中。
文档分析技术例如是OpenOffice提供的技术,使用该技术可获得文本及其位置信息。
文本的取得例如通过对文本进行词素解析来进行。词素解析技术例如是ChaSen提供的技术,使用该技术提取名词性词语。例如,对于句子“组件自天线发送了信号(コンポ一ネントが信号をアンテナより送つた)”进行词素解析,得到如下结果。
コンポ一ネント:名词
が:助词
信号:名词
を:助词
アンテナ:名词
より:助词
送つた:动词,标准形:送る
关于位置信息,在例如文档数据以XML格式记述的情况下,可适用XPath。在由文字处理软件作成的文档数据的情况下,段落序号是位置信息。例如,在文档数据的情况下,是“段落(13)”。在由制表软件作成的文档数据的情况下,单元格的坐标或该单元格的坐标及表格名是位置信息。例如,是“表格(1)、单元格(3、5)”。在由演示软件作成的文档数据的情况下,表格上的位置坐标可以是位置信息。例如是“45、22”。
在用XML格式记述文档数据的情况下,计算机系统可通过对该文档数据进行直接分析而获得位置信息。在文档数据不是XML格式的情况下,计算机系统可以使得作成该文档数据的应用软件提供位置信息。计算机系统例如通过利用应用程序所提供的、用于操作文档数据的API(宏语言),从而可获得位置信息。
种子词表达提取部(204)从上述存储介质(206)读出文本数据,使用词素解析技术提取文本数据中的名词性词语。种子词表达提取部(204)根据所提取的名词性词语的位置信息或出现频率而提取种子词表达。
在本发明的一个实施方式中,种子词表达提取部(204)例如采用占有整个文本段的名词性词语作为种子词表达。其理由是根据如下的观察,即,例如在技术文档中,单独记述为文本段的名词性词语是该技术文档中具有特征的名词性词语的可能性较高。所采用的种子词表达保存于存储介质、例如数据库(207)中。存储介质(206及207)可以是同一存储介质。
以往的术语提取的方法多是将人工挑选的正确数据用作种子词表达。而在本发明中,计算机系统(201)自动选择种子词表达。
第二提取部(208)使用文本处理信息从文档数据(205)或从含有以与该文档数据相同语言记载的文本数据的语料库(未图示)提取关于种子词表达(207)的术语候选。其理由在于,仅靠种子词表达(207)可能无法收集到足够数量的术语。所提取的术语候选保存于存储介质例如数据库(209)中。存储介质(206、207及209)可以是同一存储介质。
加权部(210)是为了决定种子词表达(207)及术语候选(209)是属于多个种类中的哪一种类的名词性词语,而利用文本处理信息判断对多个种类中的哪个种类给予权重,从而对种子词表达(207)及术语候选(209)分别就该所选择的种类给予权重。
在本例中,多个种类是指组件类型(Vc)、参数类型(Vp)及模式类型(Vs)。
决定部(211)对上述种子词表达(207)及上述术语候选(209)分别比较上述所选择的多个种类的权重,决定种子词表达(207)及术语候选(209)分别是属于被给予最高权重的种类的名词性词语。
输出部(212)按照上述决定部(211)的决定,将上述种子词表达(207)及上述术语候选(209)输出到显示装置上。在该输出中,可以将种子词表达(207)及术语候选(209)与上述决定的种类关联地显示在上述显示装置上。
“与种类关联地显示”包括按上述决定的各种类使用不同的格式将上述种子词表达(207)及上述术语候选(209)显示在上述显示装置上。取而代之,“与种类关联地显示”还包括如图2B的例子中的,在组件、参数及模式这样的标题下,分别与上述种子词表达(207)及上述术语候选(209)关联地,做成组件术语列表(213)、参数术语列表(214)及模式术语列表(215)来输出到显示装置上。
图3A~图3B表示本发明实施方式的、表示种子词表达的提取的流程图。
计算机系统(201)使用文本位置信息提取部(203)早已提取文档数据中的文本及位置信息,并将其保存于存储介质(206)中。
图3A是本发明实施方式的、提取种子词表达的步骤中的、根据各名词性词语在文档数据中存在的位置及比例而对各名词性词语给予权重的步骤。
计算机系统(201)使用种子词表达提取部(204)执行下述步骤。
在步骤301,计算机系统(201)从存储部(206)读出从对象文档数据(205)提取的文本及位置信息的数据,并将其输入到种子词表达提取部(204)。计算机系统(201)对所输入的文本进行词素解析及语法分析,使术语言的词类信息及由词素解析获得的信息提取一个或多个名词性词语。将所提取的名词性词语设为k1、k2、···、kn。计算机系统(201)将各名词性词语的权重设定为0。在名词性词语一个都未提取出的情况下,提取种子词表达的步骤在步骤301结束。
在步骤302,计算机系统(201)从k1、k2、···、kn中取出未处理的名词性词语并设为k,对各ki(i=1、2、···、n)所有都重复该操作,直到下述步骤303的处理结束。
在步骤303,计算机系统(201)使术语言的词类信息,调查k是否位于文档数据(205)中的句子中。在此,句子优选具有主语和谓语,但也可以省略主语。在k位于句子中时,进入步骤307。而在k没有位于句子中时,进入步骤304。
在步骤304,计算机系统(201)使用文档的结构信息调查k是否占有整个文本段。在k占有整个文本段的情况下,进入步骤305。而在k没占有整个文本段的情况下,进入步骤306。
在步骤305,计算机系统(201)对k给予分数W。在图3A的例子中,对名词性词语k1给予分数W。
在步骤306,计算机系统(201)对k给予分数Y。在图3A的例子中,对名词性词语k2给予分数Y。
在步骤307,计算机系统(201)使术语言的词类信息调查k是否位于括号中且占有括号中的整个字符串。在k位于括号中且占有括号中的整个字符串的情况下,进入步骤308。而在k没有位于括号中且不占有括号中的整个字符串的情况下,进入步骤309。
在步骤308,计算机系统(201)对k给予分数X。
在步骤309,计算机系统(201)对k给予分数Z。在图3A的例子中,对名词性词语kn给予分数Z。
在步骤310,计算机系统(201)在各ki(i=1、2、···、n)所有的处理都结束时,进入图3B的步骤311。而计算机系统(201)在各ki(i=1、2、···、n)所有的处理未结束时,返回步骤302。
分数W、X、Y及Z的大小关系如下所示。分数W>分数X>分数Y>分数Z。
分数W是在k不存在于句子中,且占有整个文本段的情况下给予的。
分数X是在k存在于句子中,以及k位于括号中且占有括号中的整个字符串的情况给予的。
分数Y是在k不存在于句子中,且没占有整个文本段的情况下给予的。
分数Z是在k存在于句子中,以及k没有位于括号中且不占有括号中的整个字符串的情况给予的。
图3B是本发明实施方式的、提取种子词表达的步骤中的、根据所提取的名词性词语的位置信息或出现频率而提取种子词表达的步骤。
在步骤311,计算机系统(201)汇总k1、k2、···、kn,汇总相同的名词性词语并设为si(i=1、2、···、k)(n≥k)。在汇总相同的名词性词语时,将给予给各ki的权重相加,作为s的权重。在图3B的例子中,s1的权重是具有权重W的名词性词语及具有权重Y的名词性词语的权重的合计权重(W+Y)。同样,s2的权重是具有权重Y的名词性词语及具有权重Z的名词性词语的权重的合计权重(Y+Z)。对于si,由于没有与该si相同的名词性词语,因此其权重是Z不变。
在步骤312,计算机系统(201)从s1、s2、···、sk中取出未处理的名词性词语并设为s,对各si(i=1、2、···、n)所有都重复该操作,直到下述步骤313的处理结束。
在步骤313,计算机系统(201)求出各si(i=1、2、···、k)在文档数据内出现的频率,即各si在文档数据存在的次数。对各si(i=1、2、···、k),在出现的频率在规定范围内的情况下,进入步骤314。而在出现的频率不在规定范围内的情况下,进入步骤315。所谓规定的范围例如是[1,(s的最大频率)×0.8]。这样设定的理由是,对于以过多频率出现的单词,作为一般词而排除。一般词是指没有必要作为技术术语提取的单词。使上述规定的范围的起点从1开始,是为了涵盖“至少出现一次”的单词。在由用户决定排除出现频率为1次的单词时,也可以设为[2,×××]。在步骤314,计算机系统(201)使术语言的表层结构信息判断是否适于作为s的字符种类的术语。在适合的情况下,进入步骤316。而在不适合的情况下,进入步骤315。是否适于作为s的字符种类的术语,例如在s的字符种类仅是数字、符号或平假名的任一情况、或是仅数字与符号的组合的情况下,判断为不适合。
字符种类仅是数字、符号、平假名的例子如下所示:“120”、“■”、“のののの”。s的字符种类是仅数字与符号的组合的例子如下所示:例如在文档数据内引用文献时,在该文档数据中,采用“在[1]中···”这样的使用方式的情况。在该情况下,[1]是仅数字和符号的字符串,作为名词使用。
另外,在属于上述“仅是”的情况下,认为存在词素解析错误的可能性。即,有时由于词素解析错误,将数值、符号作为名词性词语检索出。
步骤314的目的在于除去上述“仅是”的情况。
在步骤315中,将s的权重设定为0。由此,排除了不在规定范围内的名词性词语、以及不适于作为术语的名词性词语。
在步骤316,计算机系统(201)在各si(i=1、2、···、n)所有的处理都结束时,进入步骤317。而计算机系统(201)在各si(i=1、2、···、k)所有的处理未结束时,返回步骤312。
在步骤317,计算机系统(201)对各ki(i=1、2、···、n),将具有规定阈值以上权重的k作为种子词表达输出。规定阈值可根据对象文档数据、语言等而不同。阈值例如是(s的最大权重)×0.5,将该阈值以上的s作为种子词表达(s1、s2、···sn)。阈值可根据对象文档数据或语言而改变。计算机系统(201)将输出的k作为种子词表达保存于存储部(207)。
图4A表示本发明实施方式的、提取术语候选时及给予权重时使用的文本处理信息。
该文本处理信息在提取术语候选之前或给予权重之前准备。
在步骤401,计算机系统(201)对对象文档数据(205)应用词素解析及语法分析。
对象文档数据的内容如下所示。
发动机的最大输出相关。
从传感器读入输入数据。
测量传感器的灵敏度。
控制齿轮,通知处理结果。
计算机系统(201)通过对对象文档数据进行词素解析而得到文本数据。接着,计算机系统(201)对该文本数据进行语法分析。
在步骤402,计算机系统(201)从上述文本数据中提取适合下述模式1~3的词。
模式
1.名词性词语与所有格语相关联,或者名词性词语与作为所有格的名词性词语相关联;
(例:名词A(NounA)的(所有格)名词B(NounB))
2.名词性词语与动词性词语直接相关联,或者与作为动词性词语的宾语的名词性词语相关联;
(例:(名词P(NounP),名词Q(NounQ),名词R(NounR),···)→动词X(VerbX)(与动词X(VerbX)直接相关联))。
3.将名词作为直接宾语与动词性词语相关联,或者与成为动词性词语的直接宾语的名词性词语相关联;
(例:对名词K(NounK)进行(直接宾语)动词(Verb))。
结果,得到以下结果。
前处理结果1(适合模式1)
发动机→的→最大输出
传感器→的→灵敏度
前处理结果2(适合模式2)
最大输出→相关
(输入数据、传感器)→读入
灵敏度→测量
齿轮→控制
处理结果→通知
前处理结果3(适合模式3)
灵敏度を→测量
齿轮を→控制
处理结果を→通知
在步骤403,计算机系统(201)将前处理结果1、2及3保存于存储部。
图4B表示本发明实施方式的、给予权重时使用的种子词接续词(S-Seed Subsequence)的列表的生成。
该种子词接续词的列表在提取术语候选之前或给予权重之前准备。
在步骤404,与用户输入可成为模式的术语(以下称为种子词(S-Seed))的列表响应,计算机系统(201)进入步骤405。取而代之,从参照语料库选择种子词的列表,将该选择的种子词的列表输入到计算机系统(201)。种子词的个数例如是1~5。
在图4B的例子中,种子词是sd1、sd2及sd3。
在步骤405,计算机系统(201)从对象文档数据的全部或一部分、或参照语料库,提取与名词性词语连续且后接种子词的接续词(afollowing term)、和种子词作为所有格语相关联的单词(N),并计算出现频率。种子词作为所有格语相关联的单词(N)是“种子词的N”这一表达中的N。
在步骤406,计算机系统(201)对于上述出现频率为1以上的词,与接续词或种子词作为所有格语相关联的单词构成一对地作成种子词接续词的列表来存储。
计算机系统(201)将种子词接续词保存于存储部。
在图4B的例子中,对于种子词sd1、sd2、sd3,与种子词的N一起,表示接续词或作为所有格相关联的单词的任一个的类型及出现频率。
图4B的处理的具体例子如下所示。
在文章或参照语料库中存在“功能列表”及“功能概要”这样的词语。
作为种子词而输入“功能”,与此相应地,“列表”是种子词“功能”的后续的词,因此名词性词语“列表”被追加到种子词接续词列表中。同样,作为种子词而输入“功能”,与此相应地,由于“概要”是种子词“功能”作为所有格修饰的单词,因此将名词性词语“概要”追加到种子词列表中。
图5A~图5F表示本发明实施方式的、使用文本处理信息提取关于种子词表达的术语候选及对种子词表达和术语候选给予权重的例子。
在该例子中,所给予的权重是分数A、分数B、分数C及分数D。该分数的值事先设定于计算机系统。这些权重的大小关系式分数A>分数B>分数C>分数D。
图5A表示本发明实施方式的、对种子词表达给予权重的例子。
在步骤501,计算机系统(201)从种子词表达s1、s2、···sn(i=1、2、···)取出未处理的s,作为si。计算机系统(201)还将各si的Vc、Vp及Vs的权重设定为0。
在步骤502,计算机系统(201)调查在对象文档数据(205)或参照语料库中所有格语与种子词表达si相关联的次数,作为fc。所有格语对种子词表达si的修饰是“○○的si”这样的表达。在步骤502,可使用图4A的前处理结果1。
在步骤503,计算机系统(201)判断相对于规定阈值,是否是fc<th。阈值例如是si的出现频率、si的所有出现频率的10%。即,若si在整个文档中出现10次,则设定th=1次。出现频率可根据文档的种类、语言等而适当改变。在fc<th时进入步骤504。在fc≥th时进入步骤505。
在步骤504,计算机系统(201)对si的Vc给予分数A。在图5A的例子中是i=1的情况。
在步骤505,计算机系统(201)对si的Vp给予分数A及对Vs给予分数B(A>B)。在图5A的例子中是i=2及n的情况。在此,对Vp给予高于Vs的分数的理由在于,由于在下述的图5D中进行对模式的判断以及模式是如表格栏的栏目标题那样的特殊目录,因此比参数更容易表现。
在步骤506,计算机系统(201)判断是否对所有s进行了上述的步骤501~505的处理。若进行了处理,则进入图5B的步骤507。而若未进行处理,则返回步骤501。重复上述的步骤501~505的处理,直到对所有的si结束了上述权重给予。
图5A的处理的具体例子如下所述。
文章中有“按钮A的颜色”和“按钮B的颜色”这样的语句。
种子词表达为“按钮A”、“按钮B”及“颜色”时,对“按钮A”、“按钮B”的各Vc给予分数A,对“颜色”的Vp给予分数A,且对Vs给予分数B。
图5B表示本发明实施方式的、术语候选的提取及对该术语候选给予权重的例子。
在步骤507,计算机系统(201)从种子词表达s1、s2、···、sn随时取出Vc>0的sn。在此,sn是未进行以下的步骤508~514的处理的。计算机系统(201)将取出的sn记作si。
在步骤508,计算机系统(201)使术语法分析技术,识别在对象文档数据(205)中以si为直接宾语的动词性词语,网罗地提取成为与该动词性词语相同的动词性词语的宾语的名词性词语xij。该提取的名词性词语是术语候选。也可以取而代之,计算机系统(201)提取与si在同一句中出现的名词性词语xij。其理由在于,由于名词性词语xij与si在同一句中出现,因此虽然在比较整个对象文档时提取的名词性词语的精度低,但在速度方面优于从整个对象文档数据中提取。而且,有时从整个对象文档数据中提取的精度低于从同一句中提取。
举例说明步骤508。Si是“AAA”这样的名词性词语,句子是“AAA发送B的CCC”。在步骤508,从该句仅提取与“AAA”同样地修饰“发送”的“CCC”,也可以取而代之,提取该句中出现的除了AAA之外的名词性词语“B”和“CCC”这二者。
在步骤508,可使用图4A的前处理结果2。
在步骤509,计算机系统(201)从x11、···xnk取出未处理的作为xij。
在步骤510,计算机系统(201)调查所有格语与xij相关联的次数,求出fc。在步骤510,可使用图4A的前处理结果1。
在步骤511,计算机系统(201)判断相对于规定阈值(th),是否是fc<th。在fc<th时进入步骤512。在不是fc<th时进入步骤513。
在步骤512,计算机系统(201)对x的Vc给予分数B。在图5B的例子中是ij=11的情况。
在步骤513,计算机系统(201)对x的Vp给予分数B且对Vs给予分数C(B>C)。在图5B的例子中是ij=2的情况。在此,对Vp给予高于Vs的分数的理由在于,由于在下述的图5D中进行对模式的判断以及模式是如表格栏的栏目标题那样的特殊目录,因此比参数更容易表现。
在步骤514,计算机系统(201)判断是否对所有x进行了上述的步骤509~513的处理。若进行了处理,则进入步骤515。而若未进行处理,则返回步骤509。重复上述的步骤509~513的处理,直到对所有的xij结束了上述处理。
在步骤515,计算机系统(201)判断是否对所有s进行了上述的步骤507~514的处理。若进行了处理,则进入图5C的步骤516。而若未进行处理,则返回步骤507。重复上述的步骤507~514的处理,直到对所有的sn结束了上述处理。
图5B的处理的具体例子如下所述。
文章中有“按钮A发光”和“电源按钮发光”这样的语句。
种子词表达为“按钮A”时,“按钮A”修饰的动词性词语是“发光”。因此,将修饰与该动词性词语“发光”相同的动词性词语的其他的名词性词语“电源按钮”作为术语候补而提取。对该提取的术语候补“电源按钮”也进行图5A所示的处理。
图5C表示本发明实施方式的、对种子词表达和术语候选给予权重的例子。
在步骤516,计算机系统(201)从种子词表达s1、s2、···、sn及术语候选x11、···xnk取出未处理的记作s’。
在步骤517,计算机系统(201)识别在文档数据(205)中以s’为直接宾语的动词性词语,提取成为与该动词性词语相同的动词性词语的宾语的名词性词语NPi。在步骤517的动词性词语的识别中可使用图4A的前处理结果3。在步骤517的名词性词语NPi的提取中可使用图4A的前处理结果2。以s’为直接宾语的动词性词语,例如是“对s’进行ΔΔ”中的“ΔΔ”。也可以取而代之,计算机系统(201)在名词性词语NPi的提取中提取s’紧邻之后的名词性词语NPi。其理由在于,由于在自然的日语中多是在接近动词的位置使用直接宾语的格助词“を”,当取直接宾语的文节紧邻之后的名词时,多是成为相同动词性词语的宾语的名词句。该代替方法也有可能漏取名词性词语,但相应地,有助于减少噪声。在自然的日语中多是在接近动词的位置使用直接宾语的格助词“を”是指,例如“私がコンピユ一タを買う”比“コンピュ一タを私が買う”更常见。
在步骤518,计算机系统(201)判断名词性词语NPi是否包含数字。在名词性词语NPi包含数字的情况下,进入步骤519。在名词性词语NPi不包含数字的情况下,进入步骤520。
在步骤519,计算机系统(201)对s’的Vp给予分数C。在图5C的例子中,s’是种子词表达sn及术语候选x12的情况。
在步骤520,计算机系统(201)判断是否对所有s’进行了上述的步骤516~519的处理。若进行了处理,则进入图5D的步骤521。而若未进行处理,则返回步骤516。重复上述的步骤516~519的处理,直到对所有的种子词表达s1、s2、···、sn及术语候选x11、···xnk结束了上述处理。
图5C的处理的具体例子如下所述。
文章中有“输入值A”和“输入值B”这样的语句。
种子词表达或术语候选为值A时,“值A”修饰的动词性词语是“输入”。因此,收集修饰与该动词性词语“输入”相同的动词性词语的其他的名词性词语“值B”。但是,由于值B包含数值,因此对“值A”的Vp给予分数C。
图5D表示本发明实施方式的、术语候选的提取及对该术语候选给予权重的例子。
在步骤521,计算机系统(201)将种子词表达中的、表格第一行出现的名词性词语作为t1、t2、···、tm。从种子词表达中取出未处理的作为ti。
在步骤522,调查在对象文档数据(205)或参照语料库中所有格语与ti相关联的次数来作为fc。所有格语与ti相关联是“○○的ti”这样的表达。在步骤522,可使用图4A的前处理结果1。
在步骤523,计算机系统(201)判断相对于规定阈值,是否是fc<th。阈值例如是ti的出现频率、ti的所有出现频率的10%。即,若ti在整个文档中出现10次,则设定th=1次。在fc<th时进入步骤524。在fc≥th时进入步骤525。
在步骤524,计算机系统(201)对ti的Vs给予分数D。在图5D的例子中是i=m的情况。
在步骤525,计算机系统(201)对ti的Vc给予分数A。在图5D的例子中是i=2的情况。
另外,分数C>分数D。
在步骤526,计算机系统(201)判断是否对所有ti进行了上述的步骤521~525的处理。若进行了处理,则进入图5E的步骤527。而若未进行处理,则返回步骤521。重复上述的步骤521~525的处理,直到对所有的ti结束了上述给予权重。
图5E表示本发明实施方式的、对种子词表达和术语候选给予权重的例子。
在步骤527,计算机系统(201)将种子词表达中的、表格第一行出现的名词性词语作为t1、t2、···、tm。从种子词表达中取出未处理的作为ti。
在步骤528,计算机系统(201)判断关于所有种子词接续词是否与ti的类型一致。在步骤528,可使用图4B的种子词接续词。若一致,进入步骤529,而若不一致,进入步骤530。
在步骤529,计算机系统(201)对ti的Vs给予分数C。在图5E的例子中是i=1的情况。
在步骤530,计算机系统(201)判断是否对所有ti进行了上述的步骤527~529的处理。若进行了处理,则进入图5F的步骤531。而若未进行处理,则返回步骤527。重复上述的步骤527~529的处理,直到对所有的ti结束了上述给予权重。
图5E的处理的具体例子如下所述。
文章或参照语料库中有“功能列表”和“功能概要”这样的语句。
作为种子词输入“功能”,与此相应地,“列表”是接在种子词“功能”后面的单词,因此将名词性词语“列表”追加到种子词接续词列表中。同样,作为种子词输入“功能”,与此相应地,“概要”是种子词“功能”作为所有格语所修饰的单词,因此将名词性词语“概要”追加到种子词列表中。
接着,文档数据中有“按钮A的功能”和“按钮B的功能”这样的语句。上述种子词“功能”的类型与“按钮A的功能”中“功能”的类型及“按钮B的功能”中“功能”的类型一致。
因此,对名词性词语“功能”的Vs给予分数C。
在上述说明中,说明的是在图5D所记载的步骤(521~526)后,接着进行图5E所记载的步骤(527~530)这样的顺序。但是,图5D所记载的步骤和图5E所记载的步骤的执行顺序也可以相反,或者也可以同时进行。
图5F表示本发明实施方式的名词性词语种类的决定。
在步骤531,计算机系统(201)对种子词表达s1、s2、···、sn及术语候选x11、···、xnk分别比较Vc、Vp及Vs,采用具有最高权重的种类,决定种子词表达及术语候选的种类。
在图5F的表所示的例子中,种子词表达及术语候选的种类如下所示。
在种子词表达s1,仅对Vc给予了分数A,因此s1的种类决定为Vc。
在术语候选x11,仅对Vc给予了分数B,因此x11的种类决定为Vp。
在术语候选x12,对Vp给予了分数B+C,对Vs给予了分数C。B+C>C,因此x12的种类决定为Vp。
在种子词表达s2,对Vp给予了分数A,对Vs给予了分数B+C。在此,A、B及C的各值是可根据语言、文档的种类而不同的任意的参数,若分数B+C>A,则s2的种类是Vs,而若分数A>B+C,则s2的种类是Vp。在图5F的例子中,以分数B+C>A为前提,因此s2的种类决定为Vs。
在种子词表达sn,对Vp给予了分数A+C,对Vs给予了分数B+D。A+C>B+D,因此sn的种类决定为Vp。
在步骤532,计算机系统(201)对种子词表达s1、s2、···、sn及术语候选x11、···、xnk分别给予max(Vc、Vp、Vs),作为所提取的名词性词语的重要度。也可以取而代之,关于重要度,在设各名词性词语的出现频率为F,max(Vc、Vp、Vs)=T时,为了例如按照出现频率进行过滤,可以求出logF*T作为重要度。
在图5F的表所示的例子中,表示作为种子词表达及术语候选的重要度而给予了max(Vc、Vp、Vs)的例子。
在种子词表达s1,仅对Vc给予了分数A,因此s1的重要度是A。
在术语候选x11,仅对Vc给予了分数B,因此x11的重要度是B。
在术语候选x12,对Vp给予了分数B+C,对Vs给予了分数C。B+C>C,因此x12的重要度是B+C。
在种子词表达s2,对Vp给予了分数A,对Vs给予了分数B+C。如上所述,若分数B+C>A,则s2的重要度是B+C,而若分数A>B+C,则s2的重要度是A。在图5F的例子中,以分数B+C>A为前提,因此s2的重要度是B+C。
在种子词表达sn,对Vp给予了分数A+C,对Vs给予了分数B+D。A+C>B+D,因此sn的重要度是A+C。
图6A~图6E表示应用了本发明的实施例。
图6A表示采用以往方法的名词性词语的提取结果。
图6A的文档是移动电话的说明书,是技术文档的一例子。该说明书使用图和表说明组件及功能。
若使用以往的名词性词语的提取技术,则说明书中的名词性词语全部被提取。在图6A中,用斜体字下划线表示所提取的名词性词语。
图6B表示在本发明的实施例中提取种子词表达的结果。
计算机系统(201)将上述说明书中占文本段的名词性词语作为准确作为技术术语的种子词表达而提取。
在该例子中,文本段是图中的文字(是图中的文本段)以及表中的文字(由表的单元格构成的片段)。因此,图及表中的“显示器”、“按钮A”及“按钮B”、以及表中的“ID”、“名称”及“颜色”作为种子词表达而被提取。在图6B中,用斜体字下划线表示种子词表达。
图6C表示在本发明的实施例中利用文本处理信息根据种子词表达提取了术语候选的结果。
计算机系统(201)例如根据“按钮A···按下”这一表达,收集与种子词表达“按钮A”修饰的动词性词语“按下”相同的动词性词语的修饰语。上述说明书具有“按钮X···按下”这样的句子。因此,计算机系统(201)将句子“按钮X···按下”中的“按钮X”作为术语候选而提取。
计算机系统(201)还根据“按钮A的颜色···”这样的表达,给予“按钮A”的作为组件的分数Vc。
如此,计算机系统(201)进行种子词表达的提取、术语候选的提取和按各术语种类进行给予权重,与规定的种类(Vc、Vp、Vs)关联而输出各术语。
在图6C中,被分类为Vc(组件)的名词性词语以斜线单下划线表示,被分类为Vp(参数)的名词性词语以带框的文字表示,被分类为Vs(模式)的名词性词语以双重下划线表示。
图6D表示本发明实施例的权重的计算过程。
在该例子中,各分数的值做成分数W=100、分数X=70、分数Y=40、分数Z=10、分数A=100、分数B=70、分数C=40及分数D=10,而预先设定于计算机系统。
名词性词语“信息”、“电话”、“功能”及“移动终端”,由于它们的分数未达到规定的阈值,因此不作为种子词表达。
计算机系统(201)按照图3A及图3B所示的步骤,将名词性词语“显示器”、“按钮A”、“按钮B”、“颜色”、“ID”及“名称”作为种子词表达而提取。它们的权重如图6D所示(分别是“2W+3Z”、“2W+2Z”、“2W+3Z”、“Z”、“W+2Z”、“W”及“W”)。
名词性词语“按钮X”是由图5B所示的步骤得到的、根据种子词表达的术语候选。
计算机系统(201)对上述种子词表达及上述术语候选分别按照图5A~图5F所示的步骤,给予Vc、Vp及Vs的各权重。并且,计算机系统(201)对上述种子词表达及上述术语候选分别决定max(Vc、Vp、Vs)。计算机系统(201)根据所得到的max(Vc、Vp、Vs)决定上述种子词表达及上述术语候选的种类。在图6D中,网格部分表示是对各名词性词语决定的分类。
并且,计算机系统(201)根据所得到的max(Vc、Vp、Vs)求出上述种子词表达及上述术语候选的重要度。
图6E对比采用以往的名词性词语提取的结果与本发明实施例的名词性词语提取的结果并予以表示。
如以往的名词性词语提取的结果所示,在技术文档中,出现频率较低的表达也能成为应提取的术语。因此,在简单的根据频率进行提取的方法中会列举出大量术语。而根据本发明的实施方式,决定技术术语属于多个种类中的哪一种,能够与所决定的种类关联而输出技术术语。按照各个种类分类的术语列表可有助于使用者理解庞大的技术文档的内容。
图7表示本发明实施方式的计算机硬件的框图。
本发明的实施例的计算机系统(701)包括CPU(702)和主存储器(703),它们连接于总线(705)。CPU(702)优选是根据32位或64位结构的CPU,例如可使用Intel公司的Xeon(商标)系列、Core(商标)系列、Atom(商标)系列、Pentium(商标)系列及Celeron(商标)系列,以及AMD公司的Phenom(商标)系列、Athlon(商标)系列、Turion(商标)系列及Sempron(商标)系列等。总线(705)上作为用于进行声音的输入输出的接口,连接有声卡(704)。在总线(705)还经由显示控制器(706)连接LCD监视器等显示器(707)。显示器(707)是为了用适当的图形界面显示关于在该计算机(701)上工作中的软件的信息而使用的。在总线(705)经由IED或SATA控制器(708)连接硬盘或硅盘(709)、CD-ROM、DVD或Blu-ray驱动器(710)。CD-ROM、DVD或Blu-ray驱动器(710)是为了根据需要自CD-ROM、DVD-ROM或BD将程序导入硬盘或硅盘(709)而使用的。在总线(705)上还经由键盘鼠标控制器(711)或USB控制器(未图示)连接键盘(712)和鼠标(713)。
通信接口(715)例如遵照以太网(商标)协议。通信接口(715)经由通信控制器(714)与总线(705)连接,起到与计算机(701)及通信线路(716)物理连接的作用,对计算机(701)的操作系统的通信功能的TCP/IP通信协议提供网络接口层。通信线路可以是有线LAN环境,或根据例如IEEE802.11a/b/g/n等无线LAN连接标准的无线LAN环境。
以上,根据实施方式说明了本发明,但本实施方式记载的内容是本发明的一例子,不言而喻,对于本领域技术人员而言,在不脱离本发明的保护范围的情况下,能够想到各种变形例。
Claims (23)
1.一种计算机系统,用于从具有文本段的文档数据中提取术语,该计算机系统包括:
第一提取部,其使用第一文本处理信息来从上述文档数据中提取名词性词语;
第二提取部,其使用第二文本处理信息来从上述文档数据或包含以与该文档数据相同的语言记载的文本数据的语料库中提取关于上述提取的名词性词语的术语候选;
加权部,其为了决定上述提取出的名词性词语和上述提取出的术语候选是属于多个种类中的哪一种类的名词性词语而利用第三文本处理信息来选择对上述多个种类中的哪个种类给予权重,并就上述所选择的种类来分别对上述提取出的名词性词语和上述提取出的术语候选给予权重,其中上述加权部在上述文档数据或者包含以与该文档数据相同的语言记载的文本数据的语料库中,求出所有格语分别与上述提取出的名词性词语和上述提取出的术语候选相关联的次数,并根据该求出的次数是否在规定的阈值范围内来选择给予权重的种类;
决定部,其根据上述给予的权重来决定上述提取出的名词性词语和上述提取出的术语候选所属的上述种类;
输出部,其按照上述决定来使上述提取出的名词性词语和上述提取出的术语候选与上述决定的种类相关联而输出。
2.根据权利要求1所述的计算机系统,其特征在于,
上述加权部使用第四文本处理信息来多次重复进行上述选择和上述权重的给予,
上述决定部针对上述提取出的名词性词语和上述提取出的术语候选来比较上述多个种类的各权重,从而决定上述提取出的名词性词语和上述提取出的术语候选分别是属于被给予最高权重的种类的名词性词语。
3.根据权利要求2所述的计算机系统,其特征在于,
上述第一文本处理信息是文档的结构信息、语言的表层结构信息、语言的词类信息或者由词素解析获得的信息,上述第二文本处理信息、上述第三文本处理信息及上述第四文本处理信息是单词的关联信息。
4.根据权利要求1所述的计算机系统,其特征在于,
还包括:
上述第一提取部对上述文档数据进行词素解析,提取名词性词语Ki,其中i=1、2、···、n,
按照该提取的Ki在文档文件中存在的位置和比例中的至少一者来对Ki分别给予权重。
5.根据权利要求4所述的计算机系统,其特征在于,
按照上述Ki在文档文件中存在的位置给予权重是指按照Ki是否位于句中、是否位于文本段中、或者是否位于括号中来给予权重,
按照上述Ki在文档文件中存在的比例给予权重是指按照Ki在文本段中或括号中的字符串中占有的规定比例来给予权重。
6.根据权利要求4所述的计算机系统,其特征在于,
当上述Ki的上述位置不在句中时,
判断该Ki是否占有整个上述文本段,
当该Ki占有整个文本段时对该Ki给予分数W,
当该Ki没占有整个文本段时对该Ki给予分数Y,
当上述Ki的上述位置在句中时,
判断该Ki是否位于该句中的括号中且占有括号中的整个字符串,
当该Ki位于该句中的括号中且占有括号中的整个字符串时对该Ki给予分数X,
当该Ki没有位于该句中的括号中或者没占有括号中的整个字符串时对该Ki给予分数Z,
在此,分数W>分数X>分数Y>分数Z。
7.根据权利要求4所述的计算机系统,其特征在于,
还包括:
上述第一提取部
针对上述Ki汇总相同的名词性词语来作为Si,其中i=1、2、····、k,并且n≥k,
针对上述Si分别根据对各Ki给予的权重而给予权重,
提取上述Si的权重达到规定阈值以上的Si。
8.根据权利要求7所述的计算机系统,其特征在于,
上述第一提取部
判断上述Si各自的权重是否在规定的阈值范围内,
当该Si的权重在规定的阈值范围内时,
判断是否适于作为该Si的字符种类的术语,
在适合时,将该Si作为应提取的名词性词语,
在不适合时,将该Si的权重设定为0,
在该Si的权重不在规定的阈值范围内时,将该Si的权重设定为0。
9.根据权利要求8所述的计算机系统,其特征在于,
关于上述Si的字符种类是否适合,在上述Si的字符种类仅是数字、符号或平假名中任一者时,或者在仅是数字和符号的组合时,判断为不适合。
10.根据权利要求1所述的计算机系统,其特征在于,
上述第二提取部从上述文档数据或者包含以与该文档数据相同的语言记载的文本数据的语料库中提取满足规定语法条件的术语候选。
11.根据权利要求10所述的计算机系统,其特征在于,
提取满足上述规定语法条件的术语候选包括:在上述文档数据或者包含以与该文档数据相同的语言记载的文本数据的语料库中,识别将上述提取出的名词性词语作为直接宾语的动词性词语,并提取作为与该识别出的动词性词语相同的动词性词语的宾语的名词性词语。
12.根据权利要求2所述的计算机系统,其特征在于,
上述多个种类是组件类型Vc、参数类型Vp以及模式类型Vs,
上述Vc表示术语属于组件的程度,
上述Vp表示术语表示参数的程度,
上述Vs表示术语表示模式的程度。
13.根据权利要求12所述的计算机系统,其特征在于,
上述加权部
在关于上述提取出的名词性词语求出的次数低于规定阈值时,对关于上述提取出的名词性词语的上述Vc给予分数A,
在关于上述提取出的名词性词语求出的次数为规定阈值以上时,对关于上述提取出的名词性词语的上述Vp和上述Vs给予分数A。
14.根据权利要求13所述的计算机系统,其特征在于,
上述加权部
在关于上述提取出的术语候选求出的次数低于规定阈值时,对关于上述提取出的术语候选的上述Vs给予分数B,
在关于上述提取出的术语候选求出的次数为规定阈值以上时,对关于上述提取出的术语候选的上述Vp和上述Vs给予分数B,
在此,分数A>分数B。
15.根据权利要求14所述的计算机系统,其特征在于,
上述第二提取部
从上述文档数据或包含以与该文档数据相同的语言记载的文本数据的语料库中,识别将上述提取出的名词性词语作为直接宾语的动词性词语,并提取作为与该识别出的动词性词语相同的动词性词语的宾语的名词性词语NPi,
上述加权部
在该提取出的名词性词语NPi包含数字时,对关于上述提取出的名词性词语的上述Vp给予分数C,
在此,分数B>分数C。
16.根据权利要求15所述的计算机系统,其中所述所有格语分别与上述提取出的名词性词语和上述提取出的术语候选相关联的次数为所有格语与在上述提取出的名词性词语中的出现在上述文档数据的文本段的第一行的名词性词语ti相关联的次数,
根据该求出的次数是否位于规定的阈值范围内来选择给予权重的种类。
17.根据权利要求16所述的计算机系统,其特征在于,
上述加权部
在关于上述名词性词语ti求出的次数低于规定阈值时,对与上述名词性词语ti对应的上述提取出的名词性词语的上述Vs给予分数D,
在关于上述名词性词语ti求出的次数高于规定阈值时,对与上述名词性词语ti对应的上述提取出的名词性词语的上述Vc给予分数A,
在此,分数A>分数B>分数C>分数D。
18.根据权利要求17所述的计算机系统,其特征在于,
上述加权部
响应能成为模式的术语S-seed的列表输入而在上述文档数据或包含以与该文档数据相同的语言记载的文本数据的语料库中,求出接续在该S-seed后面的名词性词语和作为所有格语与该S-seed相关联的名词性词语的频率,
将接续在该S-seed后面的名词性词语和作为所有格语与该S-seed相关联的名词性词语中的、上述频率为1以上的名词性词语作为列表而保存。
19.根据权利要求18所述的计算机系统,其特征在于,
上述加权部
在上述提取出的名词性词语中的出现在上述文档数据的文本段的第一行的名词性词语ti与存储在上述列表中的名词性词语一致时,对关于与上述名词性词语ti对应的上述提取出的名词性词语的上述Vc给予分数D。
20.根据权利要求12所述的计算机系统,其特征在于,
上述决定部针对上述提取出的名词性词语和上述提取出的术语候选来比较上述Vc、上述Vp和上述Vs的各种类的权重,从而决定上述提取出的名词性词语和上述提取出的术语候选分别是属于被给予最高权重的种类的名词性词语。
21.一种用于从具有文本段的文档数据中提取术语的方法,包括如下步骤:
使用第一文本处理信息来从上述文档数据中提取名词性词语,并将该提取出的名词性词语保存于存储部;
使用第二文本处理信息来从上述文档数据或包含以与该文档数据相同的语言记载的文本数据的语料库中提取关于上述提取出的名词性词语的术语候选,并将该提取出的名词性词语保存于存储部;
为了决定上述提取出的名词性词语和上述提取出的术语候选是属于多个种类中的哪一种类的名词性词语,而利用第三文本处理信息来选择对上述多个种类中的哪个种类给予权重,并对上述提取出的名词性词语和上述提取出的术语候选分别就上述所选择的种类来给予权重,将该给予的权重保存于上述存储部,其中在上述文档数据或者包含以与该文档数据相同的语言记载的文本数据的语料库中,求出所有格语分别与上述提取出的名词性词语和上述提取出的术语候选相关联的次数,并根据该求出的次数是否在规定的阈值范围内来选择给予权重的种类;
根据上述给予的权重来决定上述提取出的名词性词语和上述提取出的术语候选所属的上述种类;
按照上述决定来使上述提取出的名词性词语和上述提取出的术语候选与上述决定的种类相关联而输出到显示装置上。
22.根据权利要求21所述的方法,其特征在于,
将上述给予的权重保存于上述存储部的步骤还包括:使用第四文本处理信息来多次重复进行上述选择和上述权重的给予的步骤,
上述决定步骤针对上述提取出的名词性词语和上述提取出的术语候选分别比较上述多个种类的各权重,从而决定上述提取出的名词性词语和上述提取出的术语候选分别是属于被给予最高权重的种类的名词性词语。
23.一种用于从具有文本段的文档数据中提取术语的方法,包括如下步骤:
使用由词素解析得到的信息和语言的词类信息来从保存于存储部的上述文档数据中提取名词性词语,使用文档的结构信息和语言的表层结构信息中的至少一者来从上述提取出的名词性词语中提取满足规定条件的词语,称为种子词表达,并将该种子词表达保存于存储部;
使用第一单词关联信息来从上述文档数据或包含以与该文档数据相同的语言记载的文本数据的语料库中,提取关于上述种子词表达的术语候选,并将该提取出的术语候选保存于上述存储部;
为了决定上述种子词表达和上述术语候选是属于多个种类中的哪一种类的名词性词语,而利用第二单词关联信息来选择对多个种类中的哪个种类给予权重,并对上述种子词表达和上述术语候选分别就上述所选择的种类来给予权重,将该给予的权重保存于上述存储部,其中,上述多个种类是组件类型Vc、参数类型Vp以及模式类型Vs,上述Vc表示术语属于组件的程度,上述Vp表示术语表示参数的程度,上述Vs表示术语表示模式的程度;
多次重复进行使用第三单词关联信息来进行上述选择和给予上述权重,其中在上述文档数据或者包含以与该文档数据相同的语言记载的文本数据的语料库中,求出所有格语分别与上述提取出的名词性词语和上述提取出的术语候选相关联的次数,并根据该求出的次数是否在规定的阈值范围内来选择给予权重的种类;
针对上述种子词表达和上述术语候选分别比较上述种类Vc、Vp以及Vs的各权重,从而决定上述种子词表达和上述术语候选分别是属于被给予最高权重的种类的名词性词语,所述最高权重是指Vc、Vp、Vs中的最大值;
按照上述决定来使上述提取出的名词性词语和上述提取出的术语候选与上述决定的种类相关联而输出到显示装置上。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008257388 | 2008-10-02 | ||
JP2008-257388 | 2008-10-02 | ||
PCT/JP2009/063584 WO2010038540A1 (ja) | 2008-10-02 | 2009-07-30 | テキストセグメントを有する文書から用語を抽出するためのシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102144229A CN102144229A (zh) | 2011-08-03 |
CN102144229B true CN102144229B (zh) | 2013-09-04 |
Family
ID=42073317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801345355A Expired - Fee Related CN102144229B (zh) | 2008-10-02 | 2009-07-30 | 用于从具有文本段的文档中提取术语的系统 |
Country Status (7)
Country | Link |
---|---|
US (2) | US8463794B2 (zh) |
EP (1) | EP2315129A4 (zh) |
JP (1) | JP5106636B2 (zh) |
KR (1) | KR101498331B1 (zh) |
CN (1) | CN102144229B (zh) |
BR (1) | BRPI0913815B1 (zh) |
WO (1) | WO2010038540A1 (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719692B2 (en) * | 2011-03-11 | 2014-05-06 | Microsoft Corporation | Validation, rejection, and modification of automatically generated document annotations |
US9223859B2 (en) | 2011-05-11 | 2015-12-29 | Here Global B.V. | Method and apparatus for summarizing communications |
JP5670490B2 (ja) * | 2012-02-15 | 2015-02-18 | 楽天株式会社 | カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 |
JP5863537B2 (ja) * | 2012-03-30 | 2016-02-16 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 電子文書に含まれる非自己記述的用語を特定するためのコンピュータ実装方法、プログラムおよびシステム |
US9436891B2 (en) | 2013-07-30 | 2016-09-06 | GlobalFoundries, Inc. | Discriminating synonymous expressions using images |
JP6277921B2 (ja) * | 2014-09-25 | 2018-02-14 | 京セラドキュメントソリューションズ株式会社 | 用語集管理装置および用語集管理プログラム |
US20160117386A1 (en) | 2014-10-22 | 2016-04-28 | International Business Machines Corporation | Discovering terms using statistical corpus analysis |
CN105159892B (zh) * | 2015-08-28 | 2018-04-03 | 长安大学 | 一种语料提取器及提取语料的方法 |
CN105677640A (zh) * | 2016-01-08 | 2016-06-15 | 中国科学院计算技术研究所 | 一种面向开放文本的领域概念抽取方法 |
CN108885617B (zh) * | 2016-03-23 | 2022-05-31 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
WO2019049354A1 (ja) * | 2017-09-11 | 2019-03-14 | 株式会社島津製作所 | 試料カテゴリーの特定装置、分析システム、及び分析ネットワークシステム |
CN110020140B (zh) * | 2017-11-15 | 2023-02-21 | 腾讯科技(深圳)有限公司 | 推荐内容显示方法、装置及系统 |
CN107918606B (zh) * | 2017-11-29 | 2021-02-09 | 北京小米移动软件有限公司 | 具象名词识别方法、装置及计算机可读存储介质 |
US10394955B2 (en) | 2017-12-21 | 2019-08-27 | International Business Machines Corporation | Relation extraction from a corpus using an information retrieval based procedure |
US10929106B1 (en) * | 2018-08-13 | 2021-02-23 | Zoho Coroporation Private Limited | Semantic analyzer with grammatical-number enforcement within a namespace |
US11151175B2 (en) | 2018-09-24 | 2021-10-19 | International Business Machines Corporation | On-demand relation extraction from text |
CN111291167B (zh) * | 2018-12-07 | 2023-05-05 | 宁波方太厨具有限公司 | 基于图像识别的产品纸质说明书自动查检方法 |
CN114207604A (zh) | 2019-07-05 | 2022-03-18 | 爱思唯尔有限公司 | 使用针对性问题回答来提取科学测量背景的系统和方法 |
CN114841755A (zh) * | 2022-05-30 | 2022-08-02 | 北京百度网讯科技有限公司 | 文案的生成方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641633A (zh) * | 2005-01-07 | 2005-07-20 | 清华大学 | 基于成熟工艺文档的工艺术语提取、规律分析和重用方法 |
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2583386B2 (ja) * | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
JPH09190438A (ja) | 1996-01-12 | 1997-07-22 | Canon Inc | 情報処理装置及びその方法 |
JPH10177575A (ja) | 1996-10-15 | 1998-06-30 | Ricoh Co Ltd | 語句抽出装置および方法、情報記憶媒体 |
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
US6253202B1 (en) * | 1998-09-18 | 2001-06-26 | Tacit Knowledge Systems, Inc. | Method, system and apparatus for authorizing access by a first user to a knowledge profile of a second user responsive to an access request from the first user |
WO2001050343A1 (fr) * | 2000-01-05 | 2001-07-12 | Mitsubishi Denki Kabushiki Kaisha | Dispositif d'extraction d'un mot-cle |
US6999963B1 (en) * | 2000-05-03 | 2006-02-14 | Microsoft Corporation | Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations |
GB2390704A (en) * | 2002-07-09 | 2004-01-14 | Canon Kk | Automatic summary generation and display |
JP2004151882A (ja) | 2002-10-29 | 2004-05-27 | Fuji Xerox Co Ltd | 情報出力制御方法、情報出力処理システム、プログラム |
US20050004806A1 (en) * | 2003-06-20 | 2005-01-06 | Dah-Chih Lin | Automatic patent claim reader and computer-aided claim reading method |
JP4249038B2 (ja) | 2004-01-08 | 2009-04-02 | 株式会社ジャストシステム | 文書表示装置、文書表示方法、および文書表示プログラム |
US8135728B2 (en) * | 2005-03-24 | 2012-03-13 | Microsoft Corporation | Web document keyword and phrase extraction |
US20070016863A1 (en) * | 2005-07-08 | 2007-01-18 | Yan Qu | Method and apparatus for extracting and structuring domain terms |
US8024329B1 (en) * | 2006-06-01 | 2011-09-20 | Monster Worldwide, Inc. | Using inverted indexes for contextual personalized information retrieval |
WO2007143223A2 (en) * | 2006-06-09 | 2007-12-13 | Tamale Software, Inc. | System and method for entity based information categorization |
US8166045B1 (en) * | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
US8290946B2 (en) * | 2008-06-24 | 2012-10-16 | Microsoft Corporation | Consistent phrase relevance measures |
US8214346B2 (en) * | 2008-06-27 | 2012-07-03 | Cbs Interactive Inc. | Personalization engine for classifying unstructured documents |
-
2009
- 2009-07-30 CN CN2009801345355A patent/CN102144229B/zh not_active Expired - Fee Related
- 2009-07-30 US US13/121,982 patent/US8463794B2/en not_active Expired - Fee Related
- 2009-07-30 WO PCT/JP2009/063584 patent/WO2010038540A1/ja active Application Filing
- 2009-07-30 BR BRPI0913815-3A patent/BRPI0913815B1/pt active IP Right Grant
- 2009-07-30 EP EP09817577.1A patent/EP2315129A4/en not_active Withdrawn
- 2009-07-30 KR KR1020117008373A patent/KR101498331B1/ko active IP Right Grant
- 2009-07-30 JP JP2010531786A patent/JP5106636B2/ja not_active Expired - Fee Related
-
2013
- 2013-05-21 US US13/899,020 patent/US9043339B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641633A (zh) * | 2005-01-07 | 2005-07-20 | 清华大学 | 基于成熟工艺文档的工艺术语提取、规律分析和重用方法 |
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
Non-Patent Citations (1)
Title |
---|
JP特开平10-177575A 1998.06.30 |
Also Published As
Publication number | Publication date |
---|---|
KR101498331B1 (ko) | 2015-03-03 |
EP2315129A4 (en) | 2016-06-15 |
BRPI0913815A2 (pt) | 2015-10-20 |
WO2010038540A1 (ja) | 2010-04-08 |
KR20110081194A (ko) | 2011-07-13 |
US8463794B2 (en) | 2013-06-11 |
BRPI0913815B1 (pt) | 2019-11-12 |
EP2315129A1 (en) | 2011-04-27 |
CN102144229A (zh) | 2011-08-03 |
JPWO2010038540A1 (ja) | 2012-03-01 |
US20110208728A1 (en) | 2011-08-25 |
US9043339B2 (en) | 2015-05-26 |
US20130253916A1 (en) | 2013-09-26 |
JP5106636B2 (ja) | 2012-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102144229B (zh) | 用于从具有文本段的文档中提取术语的系统 | |
Mandera et al. | Subtlex-pl: subtitle-based word frequency estimates for Polish | |
KR101536520B1 (ko) | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 | |
AU2019201531B2 (en) | An in-app conversational question answering assistant for product help | |
CN103399901B (zh) | 一种关键词抽取方法 | |
EP1703419A1 (en) | Translation judgment device, method, and program | |
US10146858B2 (en) | Discrepancy handler for document ingestion into a corpus for a cognitive computing system | |
Krasnowska-Kieraś et al. | Empirical linguistic study of sentence embeddings | |
US20120323905A1 (en) | Ranking data utilizing attributes associated with semantic sub-keys | |
KR100835706B1 (ko) | 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 | |
CN102880600A (zh) | 基于通用知识网络的词语语义倾向性预测方法 | |
CN101013422A (zh) | 语言信息翻译装置和方法 | |
KR101541306B1 (ko) | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 | |
US20120317141A1 (en) | System and method for ordering of semantic sub-keys | |
Kessler et al. | Extraction of terminology in the field of construction | |
CN101369285B (zh) | 一种中文搜索引擎中查询词的拼写校正方法 | |
CN102982025A (zh) | 一种搜索需求识别方法及装置 | |
Cimino et al. | Identifying Predictive Features for Textual Genre Classification: the Key Role of Syntactic Features | |
US20120323904A1 (en) | Automatic generation of a search query | |
KR101614551B1 (ko) | 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 | |
Kurmi et al. | Text summarization using enhanced MMR technique | |
Wallis | Annotation, retrieval and experimentation | |
Li-Juan et al. | A classification method of Vietnamese news events based on maximum entropy model | |
Tran et al. | A model of vietnamese person named entity question answering system | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130904 Termination date: 20200730 |
|
CF01 | Termination of patent right due to non-payment of annual fee |