CN1934570B - 文本挖掘装置和其方法 - Google Patents

文本挖掘装置和其方法 Download PDF

Info

Publication number
CN1934570B
CN1934570B CN200580008562XA CN200580008562A CN1934570B CN 1934570 B CN1934570 B CN 1934570B CN 200580008562X A CN200580008562X A CN 200580008562XA CN 200580008562 A CN200580008562 A CN 200580008562A CN 1934570 B CN1934570 B CN 1934570B
Authority
CN
China
Prior art keywords
sentence
analog
equivalence class
text mining
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200580008562XA
Other languages
English (en)
Other versions
CN1934570A (zh
Inventor
坂尾要祐
佐藤研治
赤峰享
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN1934570A publication Critical patent/CN1934570A/zh
Application granted granted Critical
Publication of CN1934570B publication Critical patent/CN1934570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

语言解析单元(21)解析从文本DB(11)读入的各个文本,并作为分析结果而生成句子结构。相似结构生成调整单元(25)生成根据来自输入装置的输入而对句子结构间每种类型的差异指定是否判定为同一结构的指定项。相似结构判定调整单元(26)生成根据来自输入装置(6)的输入而对属性值的每种类型指定是否忽略属性值间差异的指定项。相似结构生成单元(22)根据来自相似结构生成调整单元(25)的指定项,生成构成由语言解析单元(21)获得的句子结构的部分结构的相似结构,并将生成的各个相似结构设为各个生成源的部分结构的等价类。频繁相似模式检测单元(24)根据由相似结构判定调整单元(26)给出的指定项而忽略属性值,从来自相似结构生成单元(22)的等价类的集合中检测频繁模式并输出给输出装置(3)。

Description

文本挖掘装置和其方法
技术领域
本发明涉及应用语法解析等将存储在计算机上的电子文本结构化并进行分析的文本挖掘装置、文本挖掘方法以及用于文本挖掘的程序,特别是涉及能够将意思相似的句子结构判定为同一结构来进行分析的文本挖掘装置、文本挖掘方法以及用于文本挖掘的程序。
背景技术
作为文本挖掘装置的一个例子,已知有如图1所示的结构(参照专利文献:日本专利申请公开公报特开2001-84250号(第四、5页,第三图))。如图1所示,传统的文本挖掘装置包括基本词典存储部、文档数据存储部、领域相关词典存储部、语言特征分析装置、语言解析装置、模式提取装置、以及频繁模式显示装置。
图1所示的传统的文本挖掘装置大致如下工作。首先,由语言特征分析装置从基本词典和文档数据来生成与领域相关的词典,由语言解析装置从基本词典、与领域相关的词典和文档数据生成语法树等结构。模式提取装置利用该结构提取频繁模式,并将符合该频繁模式的文档数据中的文档存储到频繁模式匹配文档存储部中,与此同时,输出该频繁模式。
通常,由语言解析装置生成的结构例如多使用下述的结构:
(A1)用结构的节点表示句子中的子句(文節);
(A2)用节点的属性值表示附属词信息;
(A3)用从修饰源的节点向修饰目标的节点的方向枝表示从属关系;
(A4)用方向枝的属性值表示表层格的信息。
这里的附属词信息表示现在时或完成时等时态、难易等模态、以及否定等的附属性概念。上述附属词信息是指通过附属词附加到子句上的信息。
图2示出了用这种形式表达的“他是不知道A型车降低价格的(彼は車種Aが価格を下げたのを知らない)”这类句子的语法结构的一个例子。用节点表示句子的子句“他(彼)”、“A型车(車種A)”“价格(価格)”、“降低(下げる)”、“知道(知る)”。用节点的属性值表示附属词信息(作为节点“知道(知る)”的属性值,附属词信息:否定)。从属关系用从修饰源的节点向修饰目标的节点的方向枝来表示(例如“他(彼)”→“知道(知る)”)。表层格的信息用方向枝的属性值表达(例如作为“他(彼)”→“知道(知る)”的方向枝的属性值,“表层格:是(は)”)。
还有,结构中的所有的上述信息也可以通过仅由带有无属性值的标签的节点和不带属性值的方向枝构成的结构来表现。图3示出了用这种形式表达的“他是不知道A型车降低价格的”这句话的语法结构的例子。
句子的子句“他(彼)”、“A型车(車種A)”、“价格(価格)”、“降低(下げる)”、“知道(知る)”通过带有无属性值的标签的节点来表达(例如,在节点“他(彼)”上加上“表层格:是(は)”的标签,在“降低(下げる)”上加上标签“附属词信息:完成”、“表层格:wo(を)”),从修饰源的节点到修饰目标的节点的方向枝成为不具有属性值的方向枝。
上面所述的传统的系统有下面的问题。下面所述的问题及其分析是由本申请发明人进行研究和验证而得的结果。图4A~4D、图5A以及图5B的内容是为了具体说明问题的所在而由本申请的发明人提出的。
第一个问题是:当检测频繁模式时,意思相似且连接结构不同的结构会被判定为完全不同的模式。
连接结构是指只关注句子结构的节点、单词字符串、方向枝的连接关系以及方向,并省略附属的属性信息而得的结构。
产生上述第一个问题的原因在于,传统的文本挖掘装置不具备将连接结构不同但具有相似意思的结构判定为相同的单元。
当使用具有属性值的句子结构时,作为连接结构不同但具有相似意思的结构间的差异的例子,可以例举:
(B1)从属关系的方向间的差异,
(B2)从属关系的顺序间的差异,
(B3)由同义词的替换造成的差异,以及
(B4)并列的语法结构和意思结构间的差异。
图4A~4D示出了由这些连接结构造成的结构间差异的例子。当采用不使用属性值的语法结构时,所有意思相似的结构间的差异可以用连接结构间的差异来表示。
在图4A所示的例子中,对于意思相似的“快的是A型车(速いのは車種A)”和“A型车是快的(車種Aは速い)”的连接结构来说,修饰源与修饰目标不同。
在图4B所示的例子中,对于意思相似的“快且便宜的A型车(速く安い車種A)”和“便宜且快的A型车(安く車種A)”的连接结构来说,修饰源的“快(速い)”与“便宜(安い)”节点的顺序关系不同。
在图4C所示的例子中,对于意思相似的“A型车是快的(車種Aは速い)”和“A型车是高速的(車種Aは高速だ)”的各自的连接结构来说,修饰源“快(速い)”与“高速(高速だ)”不同。
在图4D所示的例子中表达了“A型车和B型车是快的(車種A と車種Bは速い)”的语法结构和意思结构。在图4D中,具有修饰源“A型车(車種A)”修饰“B型车(車種B)”并且“B型车(車種B)”修饰“快(速い)”的连接结构,以及具有自修饰源“A型车(車種A)”和“B型车(車種B)”到“快(速い)”的方向枝的连接结构。
第二个问题是:当检测频繁模式时,具有不同的属性值且意思相似的结构会被判定为完全不同的模式。
这是因为在传统的文本挖掘装置中关于将具有不同属性值的结构判定为相同的情况未作任何考虑的缘故。
当使用具有属性值的句子结构时,作为属性值不同但具有相似意思的结构间的差异的例子可以列举附属词信息间的差异、表层格间的差异等。
图5A和5B示出了由这些属性值引起的结构间差异的例子。
在图5A所示的例子中,对于意思相似的“A型车是加速的(車種Aは加速)”和“A型车的加速(車種A の加速)”的连接结构来说,方向枝的表层格不同。
在图5B所示的例子中,对于意思相似的“A型车是快的(車種Aは速い)”和“A型车是过去快的(車種Aは速かつた)”的连接结构来说,修饰源的节点“快(速い)”的附属词信息不同。
第三个问题是:文本挖掘装置的用户无法对将相似到什么程度的结构判定为同一结构来进行频繁模式的检测进行调整。
产生这个问题的原因在于,在传统的文本挖掘装置中,关于在进行频繁模式的检测时对于用户将怎样的结构判定为同一结构的调整未作任何考虑。
因而,本发明的目的在于,提供一种将具有相似意思且连接结构不同的结构判定为同一模式来进行频繁模式等检测的文本挖掘装置、方法及程序。
本发明的另一目的在于,提供一种对于将具有意思相似且属性值不同的结构判定为同一结构来进行频繁模式的检测进行调整的文本挖掘装置、方法及程序。
本发明的再一目的在于,提供一种文本挖掘装置的用户能够调整将相似到什么程度的结构判定为同一结构来进行频繁模式检测的文本挖掘装置、方法及程序。
发明内容
本申请中公开的发明为了达到上述目的,大致如下构成。
根据本发明第一方面的文本挖掘装置包括:存储部,存储作为文本挖掘对象的文档的集合;解析部,从所述存储部中读出所述文档并进行解析,从而得到句子结构;相似结构生成部,对由所述解析部解析得到的句子结构的部分结构进行预先设定的规定的变换操作,生成在意思上相似的模式的相似结构,其中所述变换操作至少包括图形结构的结构枝的连接变换;以及模式检测部,将由所述相似结构生成部生成的相似结构用作所述句子结构的部分结构的等价类,来进行模式检测。
在本发明中,优选如下:所述模式检测部将所述相似结构用作所述句子结构的部分结构的等价类来进行频繁模式的检测。
在本发明中,优选如下:所述相似结构生成部包括:对所述句子结构进行并列变形的单元;生成所述句子结构的部分结构的单元;进行所述句子结构和/或部分结构中的方向枝的无方向枝化的单元;参照同义词词典来进行句子结构和/或部分结构中的同义词的替换的单元;以及进行所述句子结构和/或部分结构中的顺序树的无顺序树化的单元,其中,所述相似结构生成部生成所述句子结构的相似结构,并将所述相似结构设为等价类。
在本发明中,优选包括用于调整操作以便用户将相似何种程度的模式判定为相同来进行模式检测的单元。
根据本发明第二方面的文本挖掘方法包括:从存储作为文本挖掘对象的文档的集合的存储部解析所述文档并获得句子结构的步骤;对所述句子结构的部分结构进行预先设定的规定的变形操作,生成在意思上相似的模式的相似结构的步骤,其中所述变换操作至少包括图形结构的结构枝的连接变换;以及将所述生成的相似结构用作所述句子结构的部分结构的等价类来进行模式检测的步骤。
在本发明中,优选包括将所述相似结构用作所述句子结构的部分结构的等价类来检测频繁模式的步骤。
在本发明中,优选如下:生成所述相似结构的步骤包括:对所述句子结构进行并列变形的步骤;生成所述句子结构的部分结构的步骤;进行所述句子结构和/或部分结构中的方向枝的无方向枝化的步骤;参照同义词词典来进行所述句子结构和/或部分结构中的同义词的替换的步骤;以及进行所述句子结构和/或部分结构中的顺序树的无顺序树化的步骤;其中,生成所述句子结构的相似结构,并将所述相似结构设为等价类。
在本发明中,优选如下:包括对用户将相似到什么程度的相似模式判定为相同来进行模式检测进行调整的步骤。
根据本发明第三方面的文本挖掘装置包括:解析部,对存储部的文档进行解析从而获得句子结构,在所述存储部中存储了作为文本挖掘对象的所述文档的集合;相似结构生成部,对所述句子结构的部分结构进行规定的变换操作,来生成在意思上与所述部分结构相似的相似结构,其中所述变换操作至少包括图形结构的结构枝的连接变换;以及模式检测部,将所述生成的相似结构用作所述句子结构的部分结构的等价类来进行规定的模式检测。
根据本发明第四方面的文本挖掘方法包括:对存储部的文档进行解析从而获得句子结构的处理,在所述存储部中存储了作为文本挖掘对象的所述文档的集合;对所述句子结构的部分结构进行预先设定的规定的变换操作,来生成在意思上与所述部分结构相似的模式的相似结构的处理,其中所述变换操作至少包括图形结构的结构枝的连接变换;以及将所述生成的相似结构用作所述句子结构的部分结构的等价类,在忽略属性值间的差异的情况下进行模式检测的处理。
附图说明
图1是传统技术的结构示意图。
图2是以使用属性值的形式表达的“他不知道我买书了(彼は私が本を買つたのを知らない)”这句话的语法结构的例子的示意图。
图3是以不使用属性值的形式表达的“他不知道我买书了(彼は私が本を買つたのを知らない)”这句话的语法结构的例子的示意图。
图4A是连接结构不同而具有相似意思的结构间的差异示意图,示出了从属关系的方向间的差异。
图4B是连接结构不同而具有相似意思的结构间的差异示意图,示出了从属关系的顺序间的差异。
图4C是连接结构不同而具有相似意思的结构间的差异示意图,示出了由于同义词的替换而造成的差异。
图4D是连接结构不同而具有相似意思的结构间的差异示意图,示出了并列的语法结构和意思结构间的差异。
图5A是属性值不同而具有相似意思的结构间的差异的几个例子的示意图,示出了附属词信息间的差异。
图5B是属性值不同而具有相似意思的结构间差异的几个例子的示意图,示出了表层格间的差异。
图6是本发明第一实施方式的结构示意图。
图7是用于说明第一实施方式的操作的流程图。
图8是用于说明本发明实施方式中的相似结构生成单元22的操作的流程图。
图9是本发明第二实施方式的结构示意图。
图10是用于说明本发明第二实施方式的操作的流程图。
图11是本发明第三实施方式的结构示意图。
图12是用于说明本发明第三实施方式的操作的流程图。
图13是用于说明本发明第三实施方式中的相似结构生成单元22的操作的流程图。
图14是本发明第四实施方式的结构示意图。
图15是在本发明第一~第三实施例中使用的文本DB中的文本集合的示例图。
图16A是通过语言解析单元21而得到的句子1的句子结构示意图。
图16B是通过语言解析单元21而得到的句子2的句子结构示意图。
图16C是通过语言解析单元21得到的句子3的句子结构示意图。
图17是在本发明第一~第三实施例中使用的同义词词典的结构示意图。
图18是示出本发明第一~第三实施例中有关图8的步骤A2-1的处理的图。
图19是示出本发明第一~第三实施例中有关图8的步骤A2-2的处理的图。
图20A是对部分结构2a-0的无方向枝化(non-directionalbranching)处理(步骤A2-3)的示意图。
图20B是对部分结构2c-0的无方向枝化处理(步骤A2-3)的示意图。
图20C是对部分结构2a-1的无方向枝化处理(步骤A2-3)的示意图。
图20D是对部分结构2g-0的无方向枝化处理(步骤A2-3)的示意图。
图20E是对部分结构2b-0的无方向枝化处理(步骤A2-3)的示意图。
图21是示出本发明第一~第三实施例中有关图8的步骤A2-6的处理的图。
图22是示出在本发明的第一~第二实施例中,相似结构生成单元22生成由句子3的句子结构整体组成的部分结构3a-0的相似结构的处理的图。
图23是示出在本发明第一~第三实施例中,从句子1的句子结构生成的部分结构的等价类的图。
图24是示出在本发明第一~第三实施例中,从句子2的句子结构生成的部分结构的等价类的图。
图25是示出在本发明第一、第二实施例中,从句子3的句子结构生成的部分结构的等价类的图。
图26是示出在本发明第一实施例中,从图23~25所示的等价类的集合中检测的频繁模式的图。
图27是示出在本发明第二实施例中,从图23~25所示的等价类的集合中检测的频繁模式的图。
图28是示出在本发明第三实施例中,相似结构生成单元22生成由句子3的句子结构整体组成的部分结构3a-0的相似结构的处理的图。
图29是示出在本发明第三实施例中,从句子3的句子结构生成的部分结构的等价类的图。
图30是示出在本发明的第三实施例中,从图23、24以及图29所示的等价类的集合中检测的频繁模式的图。
具体实施方式
以下,参考附图来详细说明实施发明的优选形式。
参考图6可知,本发明第一实施方式的装置具有:存储信息的存储装置1、通过程序控制而动作的数据处理装置2、以及对检测出的模式进行输出的输出装置3。存储装置1包括文本数据库(DB)11。文本DB 11存储作为文本挖掘对象的文本集合。
数据处理装置2包括语言解析单元21、相似结构生成单元22和频繁模式检测单元23。这些单元分别大致如下操作。
语言解析单元21从文本DB 11中读入文本集合,由此,分析集合中的各个文本,得到句子结构。
相似结构生成单元22提取构成从语言解析单元21发送的句子结构集合中各个句子结构的全部的部分结构,并生成上述各个部分结构的全部的相似结构,从而将相似结构和生成源的部分结构设为等价类。
频繁模式检测单元23在从相似结构生成单元22发送的部分结构的等价类的集合中检测频繁模式,并将其输出给输出装置3。
图7是用于说明本实施方式的操作的流程图。接着,参考图6及图7来详细说明本发明第一实施方式的装置的操作。
首先,语言解析单元21从文本DB 11中读入文本集合。语言解析单元21对文本集合中的各个文本进行解析,并作为分析结果而生成句子结构,然后将其发送给相似结构生成单元22(图7的步骤A1)。
其次,相似结构生成单元22生成所收到的句子结构集合中的部分结构的全部相似结构,由此将相似结构作为生成源的部分结构的等价类。然后,相似结构生成单元22将等价类集合发送给频繁模式检测单元23(图7的步骤A2)。
然后,频繁模式检测单元23从接收的部分结构的等价类中进行频繁模式的检测(图7的步骤A3)。
频繁模式检测单元23将检测的频繁模式输出给输出装置3(图7的步骤A4)。
图8是示出图7的步骤A2中的相似结构生成单元22的操作的详细流程图。
参考图8可知,相似结构生成单元22首先为了对应并列语法的语法结构和意思结构的不同而进行“并列变形”(图8的步骤A2-1)。
其次,为了不仅从句子结构的整体还从部分结构中进行模式检测,进行“部分结构的生成”(图8的步骤A2-2)。
再次,为了对应从属关系的方向间的差异,进行“方向枝的无方向枝化”(图8的步骤A2-3)。
再次,为了对应同义词间的差异,进行“同义词替换”(图8的步骤A2-4)。
为了对应从属关系的顺序间的不同,进行“顺序树的无顺序树化”(图8的步骤A2-5)。
最后,通过将相似结构作为生成源的部分结构的等价类的要素,来进行“等价类的生成”(图8的步骤A2-6)。
以下对本发明第一实施方式的装置的作用效果进行详细的说明。
本实施方式的装置将由相似结构生成单元22生成的相似结构作为起始结构的等价类而使用,进行频繁模式的检测。因此,能够将连接结构不同但具有相似意思的结构判定为相同结构来检测频繁模式。
接着,参考附图来对本发明的第二实施方式进行详细的说明。
参考图9可知,本发明第二实施方式的装置与第一实施方式的装置相比,除了在数据处理装置4中具有用以取代数据处理装置2的频繁模式检测单元23的频繁相似模式检测单元24之外,其他结构相同。语言解析单元21、相似结构生成单元22均与上述第一实施方式的相同。
在本实施方式中,频繁相似模式检测单元24在从相似结构生成单元22送出的部分结构的等价类的集合中,忽略属性值间的差异,并进行频繁模式的检测,然后将检测的频繁模式发送给输出装置3。
图10是用于说明本发明第二实施方式的装置的操作的流程图。下面参考图9及图10,对本实施方式的装置的操作进行详细的说明。在本实施方式中,代替图7的步骤A3而执行B3。以图10的步骤A1、A2、A4所表示的处理与上述第一实施方式中的处理相同,因此省略其说明。
在上述的第一发明实施方式中,频繁模式检测单元23对于连接结构相同但属性值不同的结构不判定为相同,并进行频繁模式的检测。
在本实施方式中,频繁相似模式检测单元24对于由相似结构生成单元22给出的等价类的集合,也将连接结构相同但属性值不同的结构判定为相同结构,并进行频繁模式的检测,并将检测的频繁模式发送给输出装置3(图10的步骤B3)。
下面,对本发明第二实施方式的装置的作用效果进行说明。
在本发明的第二实施方式中,频繁相似模式检测单元24将连接结构相同但属性值不同的结构也判定为相同结构,来进行频繁模式的检测。因此,能够将意思相似但属性值不同的结构也判定为相同的结构来进行频繁模式的检测。
下面,参考图来对本发明的第三实施方式进行详细的说明。
参考图11可知,本发明的第三实施方式具有输入装置6,并且,数据处理装置5具有相似结构生成调整单元25和相似结构判定调整单元26,除此之外,与上述第二实施方式相同。
输入装置6从用户接收:
·用于对句子结构间每种类型的差异,指定是否判定为相同结构的输入,和
·用于对属性值的每种类型,指定是否忽略属性值间的差异的输入,并将各个输入发送给相似结构生成调整单元25和相似结构判定调整单元26。
作为由输入装置6接收的用于指定的输入,可以举出如下例子:
·“用户关于对句子结构间每种类型的差异是否判定为相同结构、以及对属性值的每种类型是否忽略属性值间的差异进行指定的指定项”,
·“当检测频繁模式时,不判定为相同模式的句子的例子”,
·“当检测频繁模式时,判定为相同模式的句子的例子”。
相似结构生成调整单元25根据来自输入装置6的指定,对连接结构间每种类型的差异,决定是否判定为同一结构,并将该指定项发送给相似结构生成单元22。
此外,相似结构判定调整单元26根据来自输入装置6的指定,对属性值的每种类型,决定是否忽略属性值间的差异,并将该决定项发送给频繁相似模式检测单元24。
相似结构生成单元22按照来自相似结构生成调整单元25的决定,对于由语言解析单元21给出的集合中的各个结构的部分结构,进行该部分结构的相似结构的生成,从而将生成的各个相似结构作为每个生成源的部分结构的等价类。
频繁相似模式检测单元24按照来自相似结构判定调整单元26的决定,忽略属性值间的差异,并在来自相似结构生成单元22的等价类的集合中频繁模式的检测。
图12是用于说明本发明第三实施方式的装置的操作的流程图。下面,参考图11及图12的流程图来对本发明第三实施方式的装置的操作进行详细的说明。
首先,语言解析单元21从文本DB 11中读入文本集合。
语言解析单元21对文本集合中的每个文本进行解析,并作为解析结果而生成句子结构,然后将其发送给相似结构生成单元22(图12的步骤A1)。语言解析单元21在图12的步骤A1中进行的操作与上述的第一实施方式的语言解析单元21的操作相同。
接着,输入装置6从用户那里接收用于对句子结构间每种类型的差异,指定是否判定为相同结构的输入,以及用于对属性值的每种类型,指定是否忽略属性值间差异的输入,并将各个输入发送给相似结构生成调整单元25和相似结构判定调整单元26(图12的步骤C1)。
相似结构生成调整单元25接受来自输入装置6的指定,生成对于句子结构间每种类型的差异是否判定为同一结构的指定项,并将其发送给相似结构生成单元22。此外,相似结构判定调整单元26接受来自输入装置6的决定,生成对于属性值的每种类型是否忽略属性值间差异的指定项,并将其发送给频繁相似模式检测单元24(图12的步骤C2)。
相似结构生成单元22按照来自相似结构生成调整单元25的指定,生成部分结构的相似结构,其中所述部分结构构成由语言解析单元21给出的集合中的各个句子结构,并由此将生成的各个相似结构作为每个生成源的部分结构的等价类,并将该等价类的集合发送给频繁相似模式检测单元24(图12的步骤C3)。
频繁相似模式检测单元24按照来自相似结构判定调整单元26的指定,忽略属性值间的差异,并在来自相似结构生成单元22的等价类的集合中进行频繁模式的检测(图12的步骤C4)。
最后,频繁相似模式检测单元24将检测的频繁模式输出给输出装置3(图12的步骤A4)。
图13是用于说明相似结构生成单元22在图12步骤C3中进行的操作的详细流程图。
参考图13可知,相似结构生成单元22在步骤C3-1的判定中,当指定了并列变形时,进行并列变形(图13的步骤A2-1)并进行部分结构的生成(图13的步骤A2-2),当没有指定并列变形时,向步骤A2-2的处理移动。并列变形和部分结构的生成与图8的步骤A2-1、A2-2相同。
在步骤C3-2的判定中,当指定了方向枝的无方向枝化时,进行方向枝的无方向枝化(图13的步骤A2-3),当没有指定时,向步骤C3-3的处理移动。方向枝的无方向枝化与图8的步骤A2-3相同。
在步骤C3-3的判定中,当指定了同义词的替换时,进行同义词的替换(图13的步骤A2-4),当没有指定同义词的替换时,进入步骤C3-4的处理。同义词的替换与图8的步骤A2-4相同。
在步骤C3-3的判定中,当指定了顺序树的无顺序树化时,进行顺序树的无顺序树化(图13的步骤A2-5),当没有指定时,向步骤A2-6的处理移动。
在步骤A2-6中,生成等价类。顺序树的无顺序树化、等价类的生成与图8的步骤A2-5、A2-6相同。
这样,本实施方式中,根据从相似结构生成调整单元25给出的指定来控制是否执行并列变形(图13的步骤A2-1)、方向枝的无方向枝化(图13的步骤A2-3)、同义词的替换(图13的步骤A2-4),以及顺序树的无顺序树化(图13的步骤A2-5),在这一点上不同于图8所示的上述第一实施方式的相似结构生成单元22。
当用户参照输出的模式,返回到步骤C1中,并再次进行用于指定将相似到如何程度的结构判定为相同的输入时,本发明能够再次进行频繁模式的检测。
接下来,对本发明第三实施方式的装置的作用效果进行说明。
在本实施方式中,相似结构生成调整单元和相似结构判定调整单元根据用户的指定来对于将相似到如何程度的结构判定为相同结构进行调整。因此,用户能够调整将相似到如何程度的结构判定为相同的结构来进行频繁模式的检测。
接着,参考图来对本发明的第四实施方式进行详细的说明。
参考图14可知,本发明第四实施方式的装置是通过程序构成上述的第一、第二、第三实施方式的。图14是在此情况下通过程序而操作的计算机的结构示意图。
文本挖掘用的程序7被读入数据处理装置8内,控制数据处理装置8的操作。数据处理装置8通过文本挖掘用的程序7的控制而执行以下处理,即:执行与第一、第二、第三实施方式中的数据处理装置2、4及5所执行的处理相同的处理。
接着,举出具体的实施例来详细说明本发明。
首先,参考附图来说明本发明的第一实施例。本发明的第一实施例是上述第一实施方式的一个具体例子。
本实施例的装置如下包括:构成图6的数据处理装置2的个人计算机、构成存储装置1的磁盘存储装置、以及作为输出装置3的显示器。
个人计算机2具有中央处理器(CPU),该中央处理器发挥语言解析单元21、相似结构生成单元22和频繁模式检测单元23的功能。在磁盘存储装置中存储有作为文本DB 11的文本集合。
图15是示出文本集合的内容的图。
语言解析单元21对文本DB 11中的图15所示的文本集合的各个文本进行语言解析,从而得到各个文本的句子结构(图7的步骤A1)。
图16A~图16C示出了在语言解析单元21中分别获得的句子1~句子3的句子结构。
接下来,相似结构生成单元22生成部分结构的所有相似结构,其中所述部分结构构成图16A~图16C所示的各个句子结构,并由此将生成的相似结构作为生成源的部分结构的等价类(图7的步骤A2)。
在本实施例中,将从图16B所示的句子2(“快且便宜的A型车(速く安い車種A)”)的句子结构生成部分结构的等价类的情况作为例子来进行说明。在图18~图21中示出了此例子。
相似结构生成单元22首先如图18所示进行并列结构的变形(图8的步骤A2-2),其次在部分结构2a-0中变形处于并列关系的“快(速い)”和“便宜(安い)”的连接关系,生成相似结构2a-1。
相似结构生成单元22接着如图19所示进行部分结构的生成(图8的步骤A2-2),从部分结构2a-0中生成表示两个单词的关系的部分结构2c-0以及2g-0以及一单词的部分结构2d-0、2e-0和2f-0。
相似结构生成单元22还从相似结构2a-1中生成部分结构2a-0中不包含的表示两单词的关系的部分结构2b-0。
将从部分结构2a-0和相似结构2a-1这两方面生成的结构归纳成一个来使用。
并且,这里用于生成部分结构的部分结构2a-0以及相似结构2a-1在今后的相似结构的生成中也作为部分结构及相似结构而使用。
接下来,相似结构生成单元22进行方向枝的无方向枝化(图8的步骤A2-3)。在这个例子中,在步骤A2-2中生成的部分结构的所有的方向枝都被无方向枝化,从而生成新的相似结构。如图20A所示,例如,对部分结构2a-0的方向枝进行无方向枝化,从而生成新的相似结构。由一个单词构成并不具有方向枝的2d-0、2e-0以及2f-0在步骤A2-3中不进行变形,因此在图20A~图20E中省略了图示。
接下来进行同义词的替换(图8的步骤A2-4)。在本实施例的“同义词的替换”中,将在用户事先提供的同义词词典中定义的被替换词替换为代表词。
如图17所示,假定本实施例中使用的同义词词典被指定为只登记有用于将被替换词“高速(高速)”替换为代表词“快(速い)”的一个词典项的同义词词典。
由于此时生成的部分结构和相似结构中不含被替换词“高速(高速)”,因此在步骤A2-4中不进行修改。从而,这里省略了步骤A2-4所进行的修改的图。
接下来进行顺序树的无顺序树化(图8的步骤A2-5)。这里,在句子结构的树结构中,通过将处于兄弟关系的单词按50音图(日语字音表)的顺序排序来进行顺序树的无顺序树化。
作为用于进行顺序树的无顺序树化的其他方法也可以采用:
将处于兄弟关系的单词按照50音图顺序以外的一定的法则来排序的方法,或者
不进行排序,而是在检测频繁相似模式时将只是处于兄弟关系的单词的顺序不同的树判定为相同的方法。
在所生成的部分结构及相似结构中,除了相似结构2a-1和2a-3(图20C)之外,其余的部分结构及相似结构中不存在构成兄弟关系的单词。在相似结构2a-1和2a-3中,处于兄弟关系的单词已按50音图的顺序排列。因此,实际上不发生变形。因此,这里省略了步骤A2-5所进行的变形的图。
最后,通过将相似结构设为生成源的部分结构的等价类,来进行等价类的生成(图8的步骤A2-6)。
在图20A~图20E所示的部分结构及相似结构的集合中,通过将各个类相似结构设为生成源的部分结构的等价类而生成等价类,在图21中示出了这些等价类。部分结构2a-0、通过对部分结构2a-0的方向枝进行无方向枝化而生成的相似结构2a-2、对部分结构2a-0进行并列变形而生成的相似结构2a-1、以及通过对相似结构2a-1的方向枝进行无方向枝化而生成的相似结构2a-3构成等价类2a。
部分结构2b-0和通过对部分结构2b-0的方向枝进行无方向枝化而生成的相似结构2b-1构成等价类2b。部分结构2c-0和通过对部分结构2c-0的方向枝进行无方向枝化而生成的相似结构2c-1构成等价类2c。部分结构2g-0和通过对部分结构2g-0的方向枝进行无方向枝化而生成的相似结构2g-1构成等价类2g。对于部分结构2d-0、2e-0以及2f-0来说,其部分结构和相似结构相同。
如图18~图21所示,在本实施例中,就相似结构生成单元22从句子2的句子结构(参考图16B)生成等价类的例子来说,在同义词的替换(图8的步骤A2-4)以及顺序树的无顺序树化(图8的步骤A2-5)中不进行变形。
如图22所示,通过相似结构生成单元22对构成句子3的句子结构(参考图16C)的一个部分结构进行变形处理。以下说明在同义词的替换(图8的步骤A2-4)以及顺序树的无顺序树化(图8的步骤A2-5)中发生的变形的例子。
首先,对表示句子3的句子结构的部分结构3a-0进行并列变形(图8的步骤A2-1)。这里,部分结构3a-0中不包含并列的结构从而不进行变形,因此在图22中不包含进行并列变形所得结果的结构。
接着,从部分结构3a-0进行部分结构的生成(图8的步骤A2-2),这里由于只重点说明对部分结构3a-0进行的结构变形,因而,省略从部分结构3a-0生成其他部分结构的处理的、部分结构的生成。
接着,对部分结构3a-0进行方向枝的无方向枝化(图8的步骤A2-3)。对从部分结构3a-0的“便宜(安い)”到“A型车(車種A)”的方向枝、以及从“高速(高速)”到“A型车(車種A)”的方向枝进行无方向枝化,从而生成相似结构3a-1(图22:步骤A2-3)。
接着,对相似结构3a-1进行同义词的替换(图8的步骤A2-4)。这里,由于使用图17所示的同义词词典,所以被替换词“高速(高速)”将被替换为代表词“快(速い)”。相似结构3a-1中包含的被替换词“高速(高速)”也被替换为代表词“快(速い)”,从而变形为相似结构(图22:步骤A2-4)。
接着,对相似结构3a-1进行顺序树的无顺序树化(图8的步骤A2-5)。这里,通过将处于兄弟关系的单词按50音图的顺序进行排序来进行顺序树的无顺序树化。因此,在相似结构3a-1中,通过交换处于兄弟关系的“便宜(安い)”和“快(速い)”来按照50音图的顺序进行排序,从而被变换为相似结构(图22:步骤A2-5)。
对这样生成的相似结构进行等价类的生成(图8的步骤A2-6)。在本实施例中,由于只重点说明对从部分结构3a-0生成的一个相似结构3a-1进行的变形,因此省略有关等价类的生成的说明。
这样,通过由相似结构生成单元22进行部分结构、相似结构以及等价类的生成,在本实施例中,从图16A的句子1的句子结构生成了图23所示的等价类。从图16B的句子2的句子结构生成了图24所示的等价类。并从图16C的句子3的句子结构生成了图25所示的等价类。
本来在图22的变形过程(图22:从步骤A2-3到步骤A2-4的相似结构3a-1)中也产生了形状不同的相似结构。但为了简单易懂地进行说明,在图23~图25的等价类中省略了在频繁模式的检测中不被使用的结构。
接着,频繁模式检测单元23从图23~图25所示的等价类的集合中检测频繁模式(频繁出现的等价类)(图7的步骤A3)。
此时,频繁模式检测单元23将至少一个要素是相同的等价类判定为相同,并进行频发模式的检测。
例如,在本实施例中,作为图23的等价类1c的要素的相似结构1c-1和作为图24的等价类2b的要素的相似结构1b-1都是将“A型车(車種A)”和“快(速い)”以无方向枝来连接的结构,并且也没有属性值间的差别,因此是相同的结构。
于是,频繁模式检测单元23将图23的等价类1c和图24的等价类2b判定为相同。
参考图23~图25可知,分别有如下的相同结构:
“相似结构1c-1、相似结构2b-1和相似结构3c-1”、
“部分结构1d-0、部分结构2d-0和部分结构3e-1”、
“部分结构1e-0、部分结构2f-0和部分结构3f-1”、
“部分结构1f-0和部分结构2e-0”。
根据“将至少一个要素为相同的等价类判定为相同”这一等价类的性质,在图23~图25所示的等价类中有下述的等价类被分别判定为相同的等价类:
“等价类1c、2b、以及3c”,
“等价类1d、2d、以及3e”、
“等价类1e、2f、以及3f”、
“等价类1f、以及2e”。
在本实施方式中,将出现三次以上的等价类设为频繁模式。用户可以在执行文本挖掘之前决定要将出现多少次数的等价类作为频繁模式来进行检测。
此时,作为频繁模式被检测出的有:
“等价类1c、2b、以及3c”,
“等价类1d、2d、以及3e”,
“等价类1e、2f、以及3f”。
最后,在输入装置3上显示表达如上提取的频繁模式的结构(图7的步骤A4)。
图26是示出在本实施方式中由输出装置3输出的频繁模式的表现的一个例子的图。在本实施例中,将表达频繁模式的作为等价类的要素的相似结构作为频繁模式的表现来使用。
通过生成相似结构、生成等价类并进行频繁模式的检测,能够将如“部分结构1c-0(图23)、部分结构2b-0(图24)和部分结构3c-0(图25)”那样的具有相似的意思但连接结构不同的部分结构判定为相同,并作为频繁模式而检测。
下面,参考附图来说明本发明的第二实施例。本实施例与上述的第二实施方式对应。
本实施例的装置包括:构成数据处理装置4的个人计算机、构成存储装置1的磁盘存储装置,以及作为输出装置3的显示器。
个人计算机4具有中央处理器(CPU),该中央处理器发挥语言解析单元21、相似结构生成单元22和频繁模式检测单元23的功能,在磁盘存储装置中存储有作为文本DB 11的文本集合。与上述第一实施例一样,文本集合使用图15所示的句子1~句子3。
语言解析单元21对文本DB 11中的图15所示的文本集合中的各文本进行语言解析,从而得到各个文本的句子结构(图10的步骤A1)。这里获得的文本结构与上述第一实施例的相同,如图16A~图16C所示。
接下来,相似结构生成单元22生成部分结构的所有相似结构,其中所述部分结构构成图16A~图16C所示的各个句子结构,并由此将生成的相似结构作为生成源的部分结构的等价类(图10的步骤A2)。这里得到的等价类与上述第一实施例相同,如图23~图25所示。
接下来,频繁相似模式检测单元24从图23~图25所示的等价类的集合中,在忽略属性值间的差异的情况下进行频繁模式(频繁的等价类)的检测(图10的步骤B3)。
频繁相似模式检测单元24,将至少一个要素是相同的等价类判定为相同,由此进行频繁模式的检测。但是,本实施例的频繁相似模式检测单元24忽略表层格、属性信息等属性值间的差异来进行相似结构的同一性判定,在这一点上,与上述第一实施例的频繁模式检测单元23不同。
例如,图23的相似结构1a-1和图24的相似结构2a-3都是将“A型车”与“快”及“便宜”以无方向枝来连接的结构。但是,由于表层格不同,在上述第一实施例的频繁模式检测单元23中不能判定为相同。但在本实施例的频繁相似模式检测单元24中却判定为相同。
参考图23~图25可知,在本实施例中,频繁相似模式检测单元24将下述的结构分别判定为同一结构:
“相似结构1a-1、相似结构2a-3和相似结构3a-1”、
“相似结构1b-1、相似结构2c-1和相似结构3b-1”、
“相似结构1c-1、相似结构2b-1和相似结构3c-1”、
“部分结构1d-0、部分结构2d-0和相似结构3e-1”、
“部分结构1e-0、部分结构2f-0和部分结构3f-0”、
“部分结构1f-0、部分结构2e-0和部分结构3d-0”。
由于频繁相似模式检测单元24将至少一个要素是相同的等价类判定为相同,因而将下述的等价类分别判定为相同的等价类:
“等价类1a、2a、以及3a”、
“等价类1b、2c、以及3b”、
“等价类1c、2b、以及3c”、
“等价类1d、2d、以及3e”、
“等价类1e、2f、以及3f”、
“等价类1f、2e、以及3d”。
在本实施例中,与上述的第一实施例相同,将出现三次以上的等价类设为频繁模式。作为频繁模式被检测出的有:
“等价类1a、2a、以及3a”、
“等价类1b、2c、以及3b”、
“等价类1c、2b、以及3c”、
“等价类1d、2d、以及3e”、
“等价类1e、2f、以及3f”、
“等价类1f、2e、以及3d”。
最后,在输入装置3上显示表达如上提取的频繁模式的结构(图10的步骤A4)。
在本实施例中,由输出装置3输出的频繁模式的表现如图27所示。在本实施例中,与上述第一实施例相同,将表达频繁模式的作为等价类的要素的相似结构作为频繁模式的表现来使用。
这样通过忽略属性值间的差异并进行频繁模式的检测,能够将如下述部分结构那样的具有相似的意思但属性值不同的部分结构判定为相同,并作为频繁模式而检测,即:
“部分结构1b-0(图23)、部分结构2c-0(图24)和部分结构3b-0(图25)”、
“部分结构1f-0(图23)、部分结构2e-0(图24)和部分结构3f-0(图25)”。
下面,参考附图来说明本发明的第三实施例。本实施例是与上述的第三实施方式对应。
本实施例的装置包括:构成数据处理装置5的个人计算机、构成存储装置1的磁盘存储装置、作为输出装置3的显示器,以及作为输入装置6的键盘。
个人计算机5具有中央处理器(CPU),该中央处理器发挥语言解析单元21、相似结构生成单元22、频繁相似模式检测单元24、相似结构生成调整单元25以及相似结构判定调整单元26的功能,在磁盘存储装置中存储有作为文本DB 11的文本集合。与上述第一、第二实施例一样,文本集合使用图15所示的句子。
语言解析单元21对文本DB 11中的图15所示的文本集合中的各文本进行语言解析,从而得到各文本的句子结构(图12的步骤A1)。这里获得的文本结构与上述第一、第二实施例相同,如图16A~图16C所示。
接下来,用户使用输入装置6进行如下的输入操作(图12的步骤C1),即:
·用于对句子结构间每种类型的差异,指定是否判定为相同结构的输入,和
·用于对属性值的每种类型,指定是否忽略属性值间差异的输入。
在本实施例中,例如假定进行了这样的输入,即“关于连接结构间的差异,将从属关系的方向间的差异和从属关系的顺序间的差异判定为相同,将由同义词的替换造成的差异不判定为相同。关于属性值间的差异,将附属词信息间差异和表层格间的差异判定为相同”。
输入装置6将从用户那里接收的输入发送给相似结构生成调整单元25和相似结构判定调整单元26。
接着,相似结构生成调整单元25从输入装置6接收用户的指定,控制相似结构生成单元22的操作(图12的步骤C2)。
在本实施例中,当相似结构生成调整单元25从输入装置6接收了“关于连接结构间的差异,将从属关系的方向间的差异和从属关系的顺序间的差异判定为相同,将由同义词的替换造成的差异不判定为相同。关于属性值间的差异,将附属词信息间差异和表层格间的差异判定为相同”这样的指定时,就会由相似结构生成单元22进行从句子结构的部分结构生成相似结构时的变形处理,即并列结构的变形(图13的步骤A2-1)、方向枝的无方向枝化(图13的步骤A2-3)以及顺序树的无顺序树化(图13的步骤A2-4)。但是,相似结构生成调整单元25控制相似结构生成单元22的操作以跳过同义词的替换(图13的步骤A2-4)。
另一方面,相似结构判定调整单元26从输入装置6接收用户的输入,控制频繁相似模式检测单元24的操作(图12的步骤C2)。
在本实施例中,相似结构判定调整单元26从输入装置6接收“关于连接结构间的差异,将从属关系的方向间的差异和从属关系的顺序间的差异判定为相同,将由同义词的替换造成的差异不判定为相同”。
关于属性值间的差异,相似结构判定调整单元26接收“将附属词信息间的差异和表层格间的差异判定为相同”这样的指示,并控制频繁相似模式检测单元24以使其在忽略表层格间的差异和附属词信息间的差异情况下进行相似结构的同一性判定的处理。
接着,相似结构生成单元22对构成图16A~图16C所示的各个句子结构的部分结构,按照在步骤C2中生成的指定项,跳过同义词的替换(图13的步骤A2-4)来生成相似结构,并将生成的相似结构设为生成源的部分结构的等价类(图12的步骤C3)。
以下,举例说明由相似结构生成单元22对图16C所示的句子3的句子结构的一部分结构进行变形的例子。在图28中示出了所述一个例子。
首先,对表示句子3的句子结构的部分结构3a-0,进行并列的变形(图13的步骤A2-1)。在图28的例子中,部分结构3a-0中不包含并列的结构从而不进行变形,因此,在图28中不包含进行并列变形所得结果的结构。
接着,从部分结构3a-0进行部分结构的生成(图13的步骤A2-2)。由于只重点说明对部分结构3a-0进行的结构变形,因而,省略从部分结构3a-0生成其他部分结构的处理的、部分结构的生成。
接着,对部分结构3a-0进行方向枝的无方向枝化(图13的步骤A2-3)。对从部分结构3a-0的“便宜(安い)”到“A型车車種A)”的方向枝、以及从“高速(高速)”到“A型车(車種A)”的方向枝进行无方向枝化。其结果生成了相似结构3a-2(图28的步骤A2-3)。
同义词的替换(图13的步骤A2-4)由于根据从相似结构生成调整单元25给出的指定而在步骤C3-3的判定中被跳过,因此不被执行。
接着,对相似结构3a-2进行顺序树的无顺序树化(图13的步骤A2-5)。这里,通过将处于兄弟关系的单词按50音图的顺序进行排序来进行顺序树的无顺序树化。在相似结构3a-2(经图28的步骤A2-3处理后的相似结构)中,将处于兄弟关系的单词“便宜(安い)”和“高速(高速)”按50音图的顺序进行排序以交换所述单词的顺序。其结果是,相似结构3a-2被变换为经图28的步骤A2-5处理后的相似结构。
对这样生成的相似结构进行等价类的生成(图13的步骤A2-6)。在本实施例中,由于只重点说明对从部分结构3a-0生成的一个相似结构3a-2进行的变形,因此省略有关等价类的生成的说明。
在本实施例的变形中,由于跳过同义词的变形(图13的步骤A2-4),因此,在经图28的步骤A2-5处理后的相似结构中剩有被替换词“高速(高速)”。而在图22所示的上述第一、第二实施例的变形例中,也就是经步骤A2-5处理后的相似结构3a-1中,被替换词“高速(高速)”已被替换为代表词“快(速い)”。
如上所述,在本实施例中,通过由相似结构生成单元22进行部分结构、相似结构以及等价类的生成,从图16所示的句子1的句子结构生成了图23所示的等价类,从图16所示的句子2的句子结构生成了图24所示的等价类,从图16所示的句子3的句子结构生成了图29所示的等价类。
接下来,频繁相似模式检测单元24在步骤C2中,从图23、图24、以及图29所示的等价类的集合中,在忽略相似结构判定调整单元26所指定的属性值间差异的情况下,进行频繁模式的检测(图12的步骤A4)。
频繁相似模式检测单元24将至少一个要素是相同的等价类判定为相同来进行频繁模式的检测。
在本实施例中,频繁相似模式检测单元24根据来自相似结构判定调整单元26的指定,决定忽略哪种属性值间的差异来判定相似结构的同一性。
在本实施例中,由于相似结构判定调整单元26进行了以便控制“忽略表层格间的差异”、“忽略附属词信息间的差异”的操作的指定,因此,频繁相似模式检测单元24与上述第二实施例同样地进行相似结构的同一性判定。
参考图23、图24、以及图29可知,在本实施例中,频繁相似模式检测单元24将下述的结构分别判定为同一结构:
“相似结构1a-1、以及相似结构2a-3”、
“部分结构2c-0、以及部分结构3b-0”、
“相似结构1b-1、相似结构2c-1、以及相似结构3b-1”、
“部分结构1c-0、以及相似结构2b-0”、
“相似结构1c-1、以及相似结构2b-1”、
“部分结构1d-0、以及部分结构2d-0”、
“部分结构1e-0、部分结构2f-0、以及部分结构3f-0”、
“部分结构1f-0、部分结构2e-0、以及部分结构3d-0”。
由于频繁相似模式检测单元24至少一个要素是相同的等价类判定为相同,因而将下述的等价类分别判定为相同的等价类:
“等价类1a、以及2a”、
“等价类1b、2c、以及3b”、
“等价类1c、以及2b”、
“等价类1d、以及2d”、
“等价类1e、2f、以及3f”、
“等价类1f、2e、以及3d”。
在本实施例中,与上述的第一、第二实施例相同,将出现三次以上的等价类设为频繁模式。
此时,作为频繁模式被检测出的有:
“等价类1b、2c、以及3b”、
“等价类1e、2f、以及3f”、
“等价类1f、2e、以及3d”。
最后,在输入装置3上显示表达如上提取的频繁模式的结构(图12的步骤A4)。
在本实施例中,由输出装置3输出的频繁模式的表现如图30所示。如图30所示,在本实施例中,与上述第一、第二实施方式相同,将表达频繁模式的作为等价类的要素的相似结构作为频繁模式的表现来使用。
当用户对这个频繁模式的检测感到不满意时,可以返回到图12的步骤C1中,改变用于指定将相似到什么程度的结构判定为相同的输入,由此能够进行频繁模式的再次检测。
这样,基于“将由同义词的替换造成的差异不判定为相同”这一用户指定,在图23、图24、图29中,不将下述结构那样的具有相似的意思但不同于用户的输入的结构判定为相同来进行频繁模式的检测、即:
“部分结构1a-0、部分结构2a-0、以及部分结构3a-0”、
“部分结构1c-0、部分结构2b-0、以及部分结构3c-0”、
“部分结构1d-0、部分结构2d-0、以及部分结构3e-0”,
由此,用户能够进行要将相似到什么程度的结构判定为相同的调整。
根据本发明,能够将连接结构不同但具有相似意思的结构判定为同一结构,来检测频繁模式。根据本发明,对于不具有属性值的结构的集合,能够将相似结构判定为相同来进行频繁模式的检测。
其原因在于,在本发明中采用了如下结构,即:将生成的相似结构作为原结构的等价类来使用,并由此进行频繁模式的检测。根据本发明,对于具有属性值的结构的集合,也能够将相似结构判定为相同来进行频繁模式的检测。
另外,根据本发明,能够将具有相似意思但具有不同属性值的结构判定为同一结构来检测频繁模式。
其原因在于,在本发明中,频繁相似模式检测单元忽略属性值间的差异来进行频繁模式的检测。
另外,根据本发明,文本挖掘装置的用户能够调整将相似到什么程度的结构判定为相同来进行频繁模式的检测。
其原因在于,在本发明中采用了如下结构,即:频繁结构生成调整单元和频繁结构判定调整单元基于来自用户的输入而调整将相似到什么程度的结构判定为相同结构。
工业实用性
本发明能够应用于文本挖掘装置,以及在计算机上实现文本挖掘装置的程序中,该文本挖掘装置常用于对储存在计算机上的来自顾客的投诉邮件或调查结果进行特征分析的目的。

Claims (10)

1.一种文本挖掘装置,其特征在于,包括:
存储部,存储作为文本挖掘对象的文档的集合;
解析部,从所述存储部中读出所述文档并进行解析,从而得到句子结构;
相似结构生成部,对由所述解析部解析得到的句子结构的部分结构进行预先设定的规定的变换操作,生成在意思上相似的模式的相似结构,其中所述变换操作至少包括图形结构的结构枝的连接变换;以及
模式检测部,将由所述相似结构生成部生成的相似结构用作所述句子结构的部分结构的等价类,来进行模式检测。
2.如权利要求1所述的文本挖掘装置,其特征在于,
所述模式检测部将所述相似结构用作所述句子结构的部分结构的等价类来进行频繁模式的检测。
3.如权利要求1所述的文本挖掘装置,其特征在于,
所述相似结构生成部包括:
对所述句子结构进行并列变形的单元;
生成所述句子结构的部分结构的单元;
进行所述句子结构和/或部分结构中的方向枝的无方向枝化的单元;
参照同义词词典来进行句子结构和/或部分结构中的同义词的替换的单元;以及
进行所述句子结构和/或部分结构中的顺序树的无顺序树化的单元。
4.如权利要求1所述的文本挖掘装置,其特征在于,包括用于调整操作以便用户将相似何种程度的模式判定为相同来进行模式检测的单元。
5.一种文本挖掘方法,其特征在于,包括:
从存储作为文本挖掘对象的文档的集合的存储部解析所述文档并获得句子结构的步骤;
对所述句子结构的部分结构进行预先设定的规定的变换操作,生成在意思上相似的模式的相似结构的步骤,其中所述变换操作至少包括图形结构的结构枝的连接变换;以及
将所述生成的相似结构用作所述句子结构的部分结构的等价类来进行模式检测的步骤。
6.如权利要求5所述的文本挖掘方法,其特征在于,包括将所述相似结构用作所述句子结构的部分结构的等价类来检测频繁模式的步骤。
7.如权利要求5所述的文本挖掘方法,其特征在于,生成所述相似结构的步骤包括:
对所述句子结构进行并列变形的步骤;
生成所述句子结构的部分结构的步骤;
进行所述句子结构和/或部分结构中的方向枝的无方向枝化的步骤;
参照同义词词典来进行所述句子结构和/或部分结构中的同义词的替换的步骤;以及
进行所述句子结构和/或部分结构中的顺序树的无顺序树化的步骤。
8.如权利要求7所述的文本挖掘方法,其特征在于,包括对用户将相似到何种程度的模式判定为相同来进行模式检测进行调整的步骤。
9.一种文本挖掘装置,其特征在于,包括:
解析部,对存储部的文档进行解析从而获得句子结构,在所述存储部中存储了作为文本挖掘对象的所述文档的集合;
相似结构生成部,对所述句子结构的部分结构进行规定的变换操作,来生成在意思上与所述部分结构相似的相似结构,其中所述变换操作至少包括图形结构的结构枝的连接变换;以及
模式检测部,将所述生成的相似结构用作所述句子结构的部分结构的等价类来进行规定的模式检测。
10.一种文本挖掘方法,其特征在于,包括:
对存储部的文档进行解析从而获得句子结构的处理,在所述存储部中存储了作为文本挖掘对象的所述文档的集合;
对所述句子结构的部分结构进行预先设定的规定的变换操作,来生成在意思上与所述部分结构相似的模式的相似结构的处理,其中所述变换操作至少包括图形结构的结构枝的连接变换;以及
将所述生成的相似结构用作所述句子结构的部分结构的等价类,在忽略属性值间的差异的情况下进行模式检测的处理。
CN200580008562XA 2004-03-18 2005-03-17 文本挖掘装置和其方法 Active CN1934570B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP079077/2004 2004-03-18
JP2004079077 2004-03-18
PCT/JP2005/005440 WO2005091170A1 (ja) 2004-03-18 2005-03-17 テキストマイニング装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
CN1934570A CN1934570A (zh) 2007-03-21
CN1934570B true CN1934570B (zh) 2012-05-16

Family

ID=34993905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580008562XA Active CN1934570B (zh) 2004-03-18 2005-03-17 文本挖掘装置和其方法

Country Status (4)

Country Link
US (1) US8612207B2 (zh)
JP (1) JP4525936B2 (zh)
CN (1) CN1934570B (zh)
WO (1) WO2005091170A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423348B2 (en) * 2006-03-08 2013-04-16 Trigent Software Ltd. Pattern generation
US9043197B1 (en) * 2006-07-14 2015-05-26 Google Inc. Extracting information from unstructured text using generalized extraction patterns
US8386239B2 (en) * 2010-01-25 2013-02-26 Holovisions LLC Multi-stage text morphing
CN102750282B (zh) * 2011-04-19 2014-10-22 北京百度网讯科技有限公司 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
US10339223B2 (en) * 2014-09-05 2019-07-02 Nec Corporation Text processing system, text processing method and storage medium storing computer program
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method
WO2017061027A1 (ja) * 2015-10-09 2017-04-13 三菱電機株式会社 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
CN105912521A (zh) * 2015-12-25 2016-08-31 乐视致新电子科技(天津)有限公司 一种解析语音内容的方法及装置
JP6794162B2 (ja) * 2016-07-25 2020-12-02 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
CN106503255B (zh) * 2016-11-15 2020-05-12 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN107122340B (zh) * 2017-03-30 2018-11-06 浙江省科技信息研究院 一种基于同义词分析的科技项目申报书的相似度检测方法
JP2022182212A (ja) * 2021-05-27 2022-12-08 有限会社アクアプラネット 記録整理プログラム、記録整理方法、記録整理装置、および、記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618725B1 (en) * 1999-10-29 2003-09-09 International Business Machines Corporation Method and system for detecting frequent association patterns

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111398A (en) * 1988-11-21 1992-05-05 Xerox Corporation Processing natural language text using autonomous punctuational structure
US5170349A (en) * 1989-03-14 1992-12-08 Canon Kabushiki Kaisha Text processing apparatus using modification relation analysis
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2768561B2 (ja) * 1990-12-19 1998-06-25 富士通株式会社 ネットワーク変形装置および作成装置
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US6339767B1 (en) * 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
JP3612914B2 (ja) * 1997-01-14 2005-01-26 富士ゼロックス株式会社 構造化文書検索装置及び構造化文書検索方法
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US6272455B1 (en) * 1997-10-22 2001-08-07 Lucent Technologies, Inc. Method and apparatus for understanding natural language
JP3309077B2 (ja) * 1998-08-31 2002-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 構文情報を用いた検索方法およびシステム
JP3353829B2 (ja) 1999-08-26 2002-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 膨大な文書データからの知識抽出方法、その装置及び媒体
JP2002014990A (ja) * 2000-06-28 2002-01-18 Communication Research Laboratory 質問応答システム,質問応答処理方法,変形規則自動獲得処理方法およびそれらのプログラム記録媒体
US6741988B1 (en) * 2000-08-11 2004-05-25 Attensity Corporation Relational text index creation and searching
US7051022B1 (en) * 2000-12-19 2006-05-23 Oracle International Corporation Automated extension for generation of cross references in a knowledge base
US7146308B2 (en) * 2001-04-05 2006-12-05 Dekang Lin Discovery of inference rules from text
GB2377046A (en) * 2001-06-29 2002-12-31 Ibm Metadata generation
US20030163537A1 (en) * 2001-11-27 2003-08-28 International Business Machines Corporation Method and apparatus for handling conversation threads and message groupings as a single entity
US20030204496A1 (en) * 2002-04-29 2003-10-30 X-Mine, Inc. Inter-term relevance analysis for large libraries
GB0215123D0 (en) * 2002-06-28 2002-08-07 Ibm Method and apparatus for preparing a document to be read by a text-to-speech-r eader
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
JP2004362223A (ja) * 2003-06-04 2004-12-24 Hitachi Ltd 情報マイニングシステム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618725B1 (en) * 1999-10-29 2003-09-09 International Business Machines Corporation Method and system for detecting frequent association patterns

Also Published As

Publication number Publication date
JPWO2005091170A1 (ja) 2008-02-07
WO2005091170A1 (ja) 2005-09-29
US20070233458A1 (en) 2007-10-04
US8612207B2 (en) 2013-12-17
JP4525936B2 (ja) 2010-08-18
CN1934570A (zh) 2007-03-21

Similar Documents

Publication Publication Date Title
CN1934570B (zh) 文本挖掘装置和其方法
Khan et al. A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation
US5321608A (en) Method and system for processing natural language
Hutchins The development and use of machine translation systems and computer-based translation tools
CN100576201C (zh) 用于从自然语言文本开发本体的方法和电子数据处理系统
CN100399335C (zh) 把源文档转换成目标网页文件的方法
WO2008048090A2 (en) Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language.
Krizhanovsky et al. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary
CN101661462A (zh) 四层结构的中文文本正则化体系及实现
CN106897272A (zh) 基于英语音节计算方法在可读性评测中的应用方法与平台
Ruiz et al. Question answering models for human–machine interaction in the manufacturing industry
da Rocha Costa et al. SignWriting and SWML: Paving the way to sign language processing
JP5226198B2 (ja) 規則帰納システムのためのxmlベースのアーキテクチャ
Shruthi et al. A prior case study of natural language processing on different domain
US20040102960A1 (en) Process and system for generating knowledge code and converting knowledge code into text
US20090024382A1 (en) Language information system
Zhekova et al. Conceptual frame model for the presentation of the concepts and rules in natural language interface for database
Confort et al. Learning ontology from text: a storytelling exploratory case study
Maia et al. An emotional word analyzer for Portuguese
Shauki et al. Developing a corpus of entrepreneurship emails (COREnE) for business courses in Malaysian university using integrated moves approach
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
Nelli Textual Data Analysis with NLTK
Meng et al. Design of Intelligent Recognition Model for English Translation Based on Deep Machine Learning
US20210053212A1 (en) Computer-implemented method for training a model, method for controlling, assistance and classification system
Vijayanand et al. Named entity recognition and transliteration for Telugu language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant