CN1503164A - 信息处理装置、用于实现该信息处理装置的程序 - Google Patents
信息处理装置、用于实现该信息处理装置的程序 Download PDFInfo
- Publication number
- CN1503164A CN1503164A CNA031483518A CN03148351A CN1503164A CN 1503164 A CN1503164 A CN 1503164A CN A031483518 A CNA031483518 A CN A031483518A CN 03148351 A CN03148351 A CN 03148351A CN 1503164 A CN1503164 A CN 1503164A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- word
- words
- data
- passive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title abstract description 62
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000036651 mood Effects 0.000 claims description 61
- 239000000284 extract Substances 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 19
- 230000003750 conditioning effect Effects 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 abstract description 63
- 238000007726 management method Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000005065 mining Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000002386 leaching Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
在文本分析支持方法中,设置划分成高频度信息和低频度信息的步骤,采用适合于各自信息的分析方法。对于低频度信息,通过提取消极表达、情态表达,来支持风险管理上有用知识的提取。现有的基于关键词的文件分类技术适合于高频度知识的提取、分类,但在从呼叫中心的应答历史中提取风险管理上有用的信息和顾客自身的声音时,需要从除去了大量的常见信息中提取真正有用的知识。设置将按照关键词检索的文件保存在文件夹中的功能,并设置在通过关键词检索将高频度信息存在文件夹中后,将剩余的文件保存在低频度信息的文件夹中的功能。作为从低频度信息中提取风险管理上有用的知识的手段,设置提取消极表达和表示心态的情态表达的功能。
Description
技术领域
本发明涉及从以自然语言描述的文本中提取知识的文本分析方法。主要以呼叫中心的应答历史分析作为对象。
背景技术
根据用户指定的关键词对文件进行分类的文件分类系统为根据文件中单词的出现频度,通过检测并显示未使用视点(或者在分类上还没有使用的关键词),来支持基于关键词的分类的文件分类系统(例如,参照专利文献1)。
作为风险管理上有用知识的提取手段,已考虑过着眼于‘失礼’、‘失望’等消极表达。作为提取消极表达的方法,也考虑过根据区域,预先设置失意’、‘抱怨’等具有消极意义的关键词,执行检索,在命中情况下产生报警的方法。而且,还有设置有用于文件分类的关键词字典用户更新手段的文件分类系统(例如,参照专利文献2)。
【专利文献1】特开2001-101226号公报(日本)
【专利文献2】特开2001-184351号公报(日本)
现有的基于关键词的文件分类技术,适合于高频度知识的提取、分类,但在根据呼叫中心的应答历史来提取风险管理上有用的信息和顾客本身的声音时,提取低频度的知识是重要的课题。即,需要从除去大量常见信息的过程中,高效率、并且没有遗漏地提取真正有用的知识。本发明的目的在于,根据高频度的查询来形成FAQ,以及从低频度的查询中提取风险管理上有用的信息。
在以风险管理为目的进行文本分析时,已考虑过提取消极表达。为了提取消极表达,有根据区域来设置‘失望’、‘失礼’等关键词,并执行检索的方法,但预先设定关键词,不但手续麻烦,而且也难以进行网罗,从而存在产生很多遗漏的问题。
发明内容
为了解决上述课题,在文本分析支持系统中,作为提取低频度信息的手段,设置了提取包含高频度信息的文件并保存在文件夹中之后,收集剩余的文件并保存在低频度信息的文件夹中的功能,作为在低频度信息文件夹的数据中没有消极表达的提取遗漏和噪声的手段,通过使用存储有‘失’、‘负’等具有消极意义的文字的字典,从对象文本中提取侯选消极字词,将其中被判定为消极字词的消极字词登录在消极字词字典上后,来使用消极字词字典进行消极表达的提取。
附图说明
图1是本发明的文本分析支持系统的实施例的系统构成图。
图2是表示呼叫中心应答历史数据库的数据结构的图。
图3是表示关联词库存储部的数据结构的图。
图4是表示术语向量存储部的数据结构的图。
图5是表示词库概略存储部的数据结构的图。
图6是表示文件分类操作画面的构成的图。
图7是表示词库浏览所用数据生成处理过程的流程图。
图8是表示词库浏览处理过程的流程图。
图9是表示文件分类过程的流程图。
图10是表示文件保存文件夹的数据结构的图。
图11是表示消极字词判定画面的显示例的图。
图12是表示消极文字字典的数据结构的图。
图13是消极字词字典的数据结构图。
图14是表示消极词语停用词字典的数据结构的图。
图15是表示情态表达字典的数据结构的图。
图16是表示情态表达停用词字典的数据结构的图。
图17是表示侯选消极字词提取过程的流程图。
图18是表示消极字词字典形成过程的流程图。
图19是表示侯选情态表达提取过程的流程图。
图20是表示情态表达字典形成过程的流程图。
图21是表示消极表达和情态表达的提取过程的流程图。
具体实施方式
以下,说明本发明的实施例。本实施例是以呼叫中心的应答历史作为对象的文本分析支持系统。以下,使用附图进行详细说明。
(系统构成)
图1是表示本发明第1实施例的文本分析支持系统的构成图。本系统由CPU 101、输入装置102、显示装置103、呼叫中心应答历史数据库104、词库浏览数据存储部105、文件保存文件夹106、低频度知识提取数据存储部107、存储器108构成。词库浏览数据存储部105由关联词库存储部1051、术语向量存储部1052、以及词库概略存储部1053构成。低频度知识提取数据存储部107由用于实现消极表达提取功能的消极文字字典1071、消极字词字典1072、消极字词停用词字典1073、用于实现情态(modality)表达提取功能的情态表达字典1074、情态表达停用词字典1075构成。在存储器108中,存储词库浏览数据生成处理装置1081、词库浏览处理装置1082、文件检索装置1083、侯选消极字词提取装置1084、消极字词字典字典形成装置1085、侯选情态表达提取装置1086、情态表达字典形成装置1087。
(呼叫中心应答历史数据库)
图2表示呼叫中心应答历史数据库104的数据结构。在呼叫中心应答历史数据库104的各记录中,记述有查询ID 1041、应答历史记录1042、表示以关键词检索方式检索完成的检索标记1043、表示已分类在分类文件夹中的分类标记1044。
(词库浏览功能)
本系统具备支持提取包含高频度信息的文件的词库浏览功能。这里所谓的词库是表示文件组中的有特征的单词和其关系的网络表达。本系统的词库浏览由从文件组中自动生成词库的功能、以及显示生成的词库概略及细节的功能(概略显示、放大显示)构成。词库自动生成和词库显示按照例如(日本)特开2000-227917中记载的词库浏览方法来进行。以下,说明本系统中用于实现词库浏览功能的数据和处理过程的概要。首先,说明用于实现词库浏览功能的数据。词库浏览用数据存储部105由关联词库存储部1051、术语向量存储部1052、以及词库概略存储部1053构成。在关联词库存储部1051中,存储根据存储于呼叫中心应答历史数据库104的应答历史记录1042中的文件数据而生成的关联词库。关联词库是表示单词和单词之间的关联度的词库。在本实施例中,关联度表示的是两个单词的共起容易程度,是根据与各个单词的频度和共起频度(在文件中的某个范围内两个字词同时出现的频度)来计算的。图3示出关联词库存储部1051的数据结构。关联词库存储部1051由记录ID 10511、术语X10512、术语Y 10513、以及关联度10514构成。在术语X 10512和术语Y 10513中存储具有关联关系的术语,在关联度10514中存储其关联度。
在术语向量存储部1052中,存储从存储于呼叫中心应答历史数据库104的应答历史记录1042中的文件数据中提取出的术语向量。术语向量是对文件加以特征的术语的表,可通过利用记载在‘Salton,G.,et al.:A Vector Space Model for AutomaticIndexing,Communications of the ACM,Vol.18,No.11(1975).’中的tf-idf法(Term Frequency inverse Document Frequency)来提取。该tf-idf法是文件检索方法中最为众所周知的方法之一,是将某个文件中的术语出现频度(tf)和出现该术语的文件数的倒数(idf)相乘的值作为该文件中的术语权重,并提取该文件中权重高的术语(即重要术语)作为术语向量的一种技术。图4中示出术语向量存储部1052的数据结构。术语向量存储部1052由记录ID 10521、查询ID 10522和重要术语表10523构成。在查询ID 10521中,存储呼叫中心应答历史数据库中存储的应答历史ID,在重要术语表10522中,存储出现在该应答历史的应答记录中的术语中的重要术语表。
在词库概略存储部1053中,存储关联词库存储部1051中存储的关联词库的概略。词库概略将文件组中最具特征的单词作为代表术语提取出来,将关系密切的代表术语汇总为术语簇。图5中示出词库概略存储部1053的数据结构。词库概略存储部1053由术语组号码10531和术语列表10532构成。在术语列表10532中,存储属于该术语簇的术语列表。
以上说明了词库浏览用数据。
下面,用图7和图8的流程图来说明用于实现词库浏览功能的词库浏览用数据生成处理过程和词库浏览处理过程。
(词库浏览用数据生成处理过程)
首先,为准备分析环境,形成词库浏览用数据。如图7所示,在词库浏览用数据生成处理中,首先由文件数据来生成表示术语和术语关联度的关联词库(步骤701),提取各文件的术语向量(步骤702),生成词库概略(步骤703)。词库概略将文件组中最具特征的单词作为代表术语提取出来,并将关系密切的代表术语汇总为术语簇。在代表术语提取处理中,在构成各文件术语向量的重要术语当中,在多个文件中成为重要术语的术语被称为代表术语。在术语簇生成处理中,根据关联词库中存储的术语间的关联度,将关联度高的代表术语汇总在一个簇中。
(词库浏览处理过程)
如图8所示,在词库浏览处理中,首先以例如显示在图6的词库概略显示部602上的方式向用户显示存储在词库概略存储部1053中的词库概略(步骤801)。词库概略显示部602由术语表显示部6021和选择按钮6022组成。在术语表显示部6021中,显示存储于词库概略显示部1053中的术语表10532。接着,如果用户用选择按钮等指示输入部件6022来选择术语簇表6021,并用放大按钮6033指示放大时(步骤802),则通过关联词库1051取得属于用户所选择的术语簇中的术语的关联术语(步骤803)。然后,将它们形成簇(步骤804),将生成的术语簇显示在关联术语簇显示部604上(步骤805)。如果有来自用户的词库浏览结束指示(步骤806),则结束处理,否则返回到步骤802的处理。在步骤802的放大指示中,如果用选择按钮6042选择显示在关联术语簇显示部604上的术语簇6041,并用放大按钮6033指示放大,则将该关联术语簇的关联字词显示在关联术语簇显示部604上。而如果在点击显示在词库概略显示部602或术语簇显示部604上的术语后再点击放大按钮6033,则该术语的关联字词被显示在关联术语簇显示部604上。用户通过选择关联簇数6031和簇内术语数6033,可以指定分成几个簇、以及在一个簇中提取多少个术语。
(词库浏览的效果)
设置了这样的以关键词来检索文件的功能、以及将检索出的文件保存在文件夹中的功能,用户就可以提取与作为关键词输入的字词相关联的查询,并将其保存用于形成FAQ。此外,由整个应答历史来生成词库,由表示词库整体结构的词库概略来设置包含用户选择的术语的部分结构和为用户导航的词库浏览功能,用户就可以容易地回忆起关键词。通过观察词库概略,可以了解文件群中的主题。观察汇总为一个术语簇的代表术语被排列后,可以推测出主题和其内容。通过将术语的关联字词成簇显示(将关系密切的字词汇总为术语簇来显示),可以推测术语对应的主题的副主题和其内容。
本系统具有通过词库浏览功能和关键词文件检索功能来提取包含高频度信息的文件并保存在分类文件夹中后,收集剩余的文件并保存在低频度信息文件夹中的功能。图6示出文件分类操作画面的构成。如图6所示,文件分类操作画面601由用于实现词库浏览的功能词库概略显示部602、词库放大指示部603、关联术语簇显示部604、用于实现关键词文件检索功能的文件检索指示部605、文件检索结果显示部606、用于实现文件分类保存功能的文件保存部607构成。
词库概略显示部602由术语表显示部6021和选择按钮6022构成。在术语表显示部6021中,显示存储于词库概略存储部1053中的术语表10532。词库放大指示部603由簇数6031、簇内术语数6032、放大按钮6033构成。
关联术语簇显示部604由术语表显示部6041和选择按钮6042构成。
文件检索指示部605由检索术语输入部6051和检索按钮6052构成。文件检索结果显示部606由文件显示部6061和文件选择按钮6062构成。文件保存部607由文件夹名显示部6071和文件夹选择按钮6072构成。
(文件分类过程)
本系统具备在提取包含高频度信息的文件并保存在文件夹中后,收集剩余的文件并保存在低频度信息的文件夹中的功能。图9是表示本系统中的文件分类过程的流程图。下面使用图6的文件分类操作画面和图9的流程图来说明本系统的文件分类过程。首先,如果有分类开始指示(步骤901),则对呼叫中心应答历史数据库104进行存取,将表示检索完成的检索标记1043和表示分类完成的分类标记1044的值设置为“0”。如果用户将术语输入到术语输入部6051,点击检索按钮6052来指示关键词文件检索(步骤903),则以呼叫中心应答历史数据库104的应答历史记录1042为对象来进行关键词文件检索(步骤904),将表示已检索过呼叫中心应答历史数据库104的检索标记1043设定为标记“1”(步骤905),将文件检索结果显示在文件检索结果显示部606的文件显示部6061上(步骤906)。如果用户从文件检索结果一览中选择要保存的文件,并点击文件选择按钮6062和文件夹选择按钮6072(步骤907),则将选择的文件保存在文件保存文件夹106中(步骤908),将呼叫中心应答历史数据库104的分类标记1044设定为表示分类完成的标记“1”(步骤909)。如果有来自用户的分类结束指示(步骤910),则将检索完成标记=0的文件保存在低频度文件夹中(步骤911)。
作为向低频度文件夹中保存文件方法的代替方案,也可以将分类完成标记=0的文件保存在低频度文件夹中。此外,也可以为文件保存文件夹准备选择标记,将用户指定的文件夹中已分类的文件以外的文件保存在低频度文件夹中。而且,也可根据表示是否已检索、已分类的检索标记和分类完成标记的变化更新检索次数和分类次数,将检索次数或分类次数比阈值低的文件保存在低频度文件夹中。
本系统具备支持关键词回忆的词库浏览功能。用户在词库浏览的过程中,通过选择被显示的术语,可以进行关键词文件检索。如果点击词库概略显示部602的术语表显示部6021上显示的术语,则该术语被复制在检索术语输入部6051中。而如果点击词库概略显示部602的选择按钮6022,则术语表显示部6021上显示的所有术语被复制在检索术语输入部6051中。同样,如果点击关联术语簇显示部604的术语表显示部6041上显示的术语,则该术语被复制在检索术语输入部6051中,如果点击选择按钮6042,则术语表显示部6051上显示的所有术语被复制在检索术语输入部6051中。在词库中,关联存储在整个应答历史中出现的术语。因此,通过进行词库浏览,可以对高频度信息进行收集、分类。
(提取低频度信息中的知识)
如上所述,在本系统中,可汇总从分类开始至结束期间一次也未被检索的文件或未被分类于任何一个分类文件夹中的文件,并存储在低频度信息文件夹中。在以风险管理目的进行文本分析时,‘失礼’、‘失望’等具有消极意义的单词、‘鲜红色的吗’、‘由来’、‘什么呀’、‘需要的’等情态表达成为有效的线索。因此,作为从低频度信息中提取风险管理上有用的知识的方式,设置了提取消极的表达的功能、以及提取表示顾客和操作者心态的情态表达的功能。以下,根据图21的流程图来说明从保存于低频度信息文件夹中的应答历史记录中提取包含消极表达和情态表达的文件的过程的概要。首先,从保存于低频度信息文件夹中的应答历史记录中,提取侯选消极字词-侯选情态表达(步骤2101)。接着,在侯选消极字词-侯选情态表达中,将用户选择的对象登录在消极字词字典-情态表达字典中(步骤2102)。最后,对于低频度信息文件夹的文件,通过以登录在消极字词字典和情态表达字典中的字词作为关键词进行关键词检索(步骤2103),提取包含消极字词和情态表达的文件,对内容进行确认(步骤2104)。以下,详细论述消极表达和情态表达的提取过程。
(消极表达的提取)
作为从应答历史记录中提取消极表达的方式,本系统具备从应答历史记录中提取侯选消极字词的侯选消极字词提取功能,以及将侯选消极字词中用户判定为消极字词的字词登录在消极字词字典中的消极字词字典形成功能。为了实现这些功能,本系统包括对‘失’、‘负’、‘迟’等容易成为消极字词的构成元素的文字进行登录的消极文字字典1071、登录被判定为消极字词的字词的消极字词字典1072、登录被判定不是消极字词的字词的消极字词停用词字典1073。
图12中示出消极文字字典1071的数据结构。在消极文字字典的各记录中,记述有记录ID 10711、消极文字10712、消极度10713、消极字词字典登录字词数10714、消极字词停用词字典登录字词数10715。消极字词字典登录字词数10714是登录于消极字词字典中的单词中,包含该消极文字的单词的数量。消极字词停用词字典登录字词数10715是登录于消极字词停用词字典1073中的单词中,包含该消极字词的单词的数量。在消极度10713中,记述在作为侯选消极字词的被提取出来的单词中表示登录于消极字词字典中的单词比例的0~1的值。或者,用户也可以任意地设定消极度的值。图13中示出消极字词字典1072的数据结构。在消极字词字典的各记录中,记述有记录ID 10721、消极字词10722、消极度10723。在消极度10723中,记述有被记述于消极字词字典中的消极度10713的值。图14表示消极字词停用词字典1073的数据结构。在消极字词停用词字典的各记录中,记述有记录ID 10731、消极字词停用词10732。
以下,根据图17的流程图来说明侯选消极字词提取的过程。首先,提取应答历史记录1042中出现的所有单词,形成单词表(步骤1701)。读取单词表中的一个单词(步骤1703),参照消极文字字典1071,判定是否包含消极文字(步骤1704)。如果包含消极文字,则参照消极字词字典1702,判定是否已登录在消极字词字典1072中(步骤1705)。如果已登录在消极字词字典1072中,由于已经知道是消极字词,所以不提取作为侯选消极字词,结束与该单词相关的处理。如果未登录于消极字词字典1072中,则参照消极字词停用词字典1073,判定是否已登录在消极字词停用词字典1073中(步骤1706)。如果已登录于消极字词停用词字典1073中,由于已经知道不是消极字词,所以不提取作为侯选消极字词,结束与该单词相关的处理。然后,将未登录在消极字词字典中也未登录在消极字词停用词字典中的单词登录在侯选消极字词表中(步骤1707)。通过对登录于单词表中的所有单词进行同样的处理,在包含消极文字的单词中,将未登录于消极字词字典中也未登录于消极字词停用词字典中的单词登录在侯选消极字词表中。
以下,根据图18的流程图来说明消极字词字典形成的过程。首先,为了对侯选消极字词进行是否为消极字词的判定,将消极字词侯选表显示在画面上(步骤1801)。图11示出消极字词判定画面的显示例。在消极字词判定画面上,配置有侯选消极字词显示部11011、消极字词字典已登录字词显示部11012、消极字词停用词字典已登录字词显示部11013、登录按钮11014。消极字词字典已登录字词显示部11012和消极字词停用词字典已登录字词显示部11013显示用于判定的参考信息,因此也可以省略。用户对于显示在侯选消极字词显示部11011上的侯选消极字词判定是否为消极字词,将检查标记附加在判定为消极字词的字词上(步骤1802)。如果用户点击登录按钮11014(步骤1803),则将被判断为消极字词的字词登录在消极字词字典中(步骤1804)。没有被判断为消极字词的字词,被登录在消极字词停用词字典中(步骤1805)。
(情态表达的提取)
下面,说明提取表示顾客或操作者心态的情态表达的功能。图15中示出情态表达字典1074的数据结构。在情态表达字典的各记录中,记述有记录ID 10741、情态表达10742、词类10743、情态10744。图16中示出情态表达停用词字典1075的数据结构。在情态表达停用词字典的各记录中,记述有记录ID 10751、情态表达停用词10752、词类10753。
以下,根据图19的流程图来说明提取侯选情态表达的过程。首先,提取应答历史记录1042中出现的所有单词,形成单词表(步骤1901)。读取单词表中的一个单词(步骤1903),如果词类为副词或助动词(步骤1904),则进行提取侯选情态表达的处理。即,参照情态表达字典1074,判定是否已登录在情态表达字典1074中(步骤1905)。如果已登录在情态表达字典1074中,由于已经知道是情态表达,所以不提取作为侯选情态表达而结束与该单词相关的处理。如果未登录在情态表达字典1074中,则参照情态表达停用词字典1075,判定是否已登录在情态表达停用词字典1075中(步骤1906)。如果已登录在情态表达停用词字典1075中,由于已经知道不是情态表达,所以不提取作为侯选情态表达而结束与该单词有关的处理。然后,将未登录在情态表达字典也未登录在情态表达停用词字典中的单词登录在侯选情态表达表中(步骤1907)。通过对登录在单词表中的所有单词进行同样的处理,在词类为副词或助动词的单词中,未登录在情态表达字典也未登录在情态表达停用词字典中的单词被登录在侯选情态表达表中。
以下,根据图20的流程图来说明情态表达字典形成的过程。首先,为了对侯选情态表达进行是否为情态表达的判定,将侯选情态表达表显示在画面上(步骤2001)。情态表达判定画面使用与图11的消极字词判定画面相同的部件。用户对显示在画面上的侯选情态表达判定是否为情态表达,在判定为情态表达的字词上附加检查标记(步骤2002)。如果用户点击登录按钮(步骤2003),则将判断为情态表达的字词登录在情态表达字典中(步骤2004)。没有被判断为情态表达的字词则被登录在情态表达停用词字典上(步骤1805)。
根据本发明,可以将应答历史记录中包含的信息分成高频度信息和低频度信息,具有可以采用适合于各自信息的文本分析方法的效果。对于高频度信息,通过按主题方式进行分类,可以在FAQ形成支持中灵活使用。对于低频度信息,从所谓的消极表达和情态表达的与主题不同的观点中,可以提取风险管理上有用的知识。
根据本发明的消极表达提取方法,以文字作为线索来提取分析对象文本中包含的侯选消极字词,所以可以防止提取遗漏。对于提取的侯选消极字词,需要以人工方式进行是否为消极字词的判定,但由于将是否为消极字词的判定后的字词存储在消极字词字典和情态停用词字典中,所以具有在重复操作中减少提取侯选消极字词的操作的效果。
Claims (14)
1.一种信息处理装置,包括:
存储多个数据的存储部件;
在所述被存储的数据中对共有单词或字词的数据附加共有属性的部件;以及
对所述数据进行分析的解析部件;
其特征在于,所述解析部件对没有附加属性的数据使用消极字词字典进行分析,对所述附加了所述属性的数据进行不同的分析。
2.如权利要求1所述的信息处理装置,其特征在于,所述信息处理装置还包括:
输入部件;以及
使用通过所述输入部件接受的关键词在所述数据库内进行检索的部件;
附加所述属性的部件对提取出所述检索结果的数据附加其属性。
3.如权利要求2所述的信息处理装置,其特征在于:
所述输入部件接受在所述检索部件中对提取次数的指定;
所述解析部件用具有被提取所述次数以下的属性的数据、以及具有被提取比所述次数多的次数的属性的数据,按不同的解析方法进行分析。
4.如权利要求1所述的信息处理装置,其特征在于:
所述消极字词字典由存储汉字单位的字词的第1字典和存储包含该汉字的单词的第2字典构成;
所述解析部件从所述数据中检索存储于所述第1和第2字典中的字词,在包含存储于所述第1字典中的汉字的被检索单词中,将所述第2字典中没有的单词显示在所述显示部件上,并将所显示的单词中被指定的单词存储在所述第2字典中。
5.如权利要求2所述的信息处理装置,其特征在于:
所述消极字词字典由存储汉字单位的字词的第1字典和存储包含该汉字的单词的第2字典构成;
所述解析部件从所述数据中检索存储于所述第1和第2字典中的字词,在包含存储于所述第1字典中的汉字的被检索单词中,将所述第2字典中没有的单词显示在所述显示部件上,并将所显示的单词中被指定的单词存储在所述第2字典中。
6.如权利要求3所述的信息处理装置,其特征在于:
所述消极字词字典由存储汉字单位的字词的第1字典和存储包含该汉字的单词的第2字典构成;
所述解析部件从所述数据中检索存储于所述第1和第2字典中的字词,在包含存储于所述第1字典中的汉字的被检索单词中,将所述第2字典中没有的单词显示在所述显示部件上,并将所显示的单词中被指定的单词存储在所述第2字典中。
7.如权利要求1所述的信息处理装置,其特征在于:
还具有存储表达情态的单词的字典;
所述解析部件使用上述字典来进行分析。
8.如权利要求2所述的信息处理装置,其特征在于:
还具有存储表达情态的单词的字典;
所述解析部件使用上述字典来进行分析。
9.如权利要求2所述的信息处理装置,其特征在于,包括:
根据所述被存储的数据计算单词和单词的关联度的部件;
从所述被存储的数据中提取重要术语的部件;
使用所述关联度信息来簇集所述重要术语并生成词库概略的部件;以及
将所述生成的词库概略显示在显示部件上的部件;
所述显示部件显示通过所述输入部件选择的属于所述词库概略簇的重要术语;
在所述显示的重要术语中,将通过所述指示输入部件指示的重要术语作为所述关键词来设定。
10.一种信息处理装置,包括:
存储汉字单位的字词的第1字典;
存储包含该汉字的单词的第2字典;
显示部件;
输入部件;以及
从记录在记录部件中的数据中检索存储于所述第2字典中的单词的部件;
其特征在于,所述检索部件也检索包含存储于所述第1字典中的汉字的单词,将包含存储于所述第1字典中的汉字的被检索单词显示在所述显示部件上,并将所显示的单词中被指定的单词存储在所述第2字典中。
11.如权利要求10所述的信息处理装置,其特征在于,还包括存储未经所述指定的单词的第3字典。
12.如权利要求10所述的信息处理装置,其特征在于:
所述第1字典存储具有否定意义的汉字;
所述第2字典存储带有否定意义的单词。
13.如权利要求11所述的信息处理装置,其特征在于:
所述第1字典存储具有否定意义的汉字;
所述第2字典存储带有否定意义的单词。
14.一种程序,其特征在于,使计算机执行以下步骤:
接受关键词的输入;
使用所述关键词来检索存储有多个数据的存储部件中的多个数据;
对提取出所述检索结果的数据附加共有属性;
使用消极字词字典来对没有附加所述属性的数据进行分析,对附加了所述属性的数据,使用与所述消极字词字典不同的数据来进行分析。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP341671/2002 | 2002-11-26 | ||
JP2002341671A JP2004178123A (ja) | 2002-11-26 | 2002-11-26 | 情報処理装置、該情報処理装置を実現するためのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1503164A true CN1503164A (zh) | 2004-06-09 |
Family
ID=32703929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA031483518A Pending CN1503164A (zh) | 2002-11-26 | 2003-06-30 | 信息处理装置、用于实现该信息处理装置的程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20040158558A1 (zh) |
JP (1) | JP2004178123A (zh) |
CN (1) | CN1503164A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122909B (zh) * | 2006-08-10 | 2010-06-16 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101149747B (zh) * | 2006-09-21 | 2010-06-23 | 索尼株式会社 | 用于处理信息的装置和方法、以及程序 |
CN102063461A (zh) * | 2009-11-06 | 2011-05-18 | 株式会社理光 | 发言记录装置以及发言记录方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7352913B2 (en) | 2001-06-12 | 2008-04-01 | Silicon Optix Inc. | System and method for correcting multiple axis displacement distortion |
JP4924950B2 (ja) * | 2005-02-08 | 2012-04-25 | 日本電気株式会社 | 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム |
JP4819483B2 (ja) * | 2005-11-14 | 2011-11-24 | 旭化成株式会社 | 危険予知管理システム |
JP4828358B2 (ja) * | 2006-09-04 | 2011-11-30 | カヤバ工業株式会社 | 運行管理装置 |
JP5224868B2 (ja) * | 2008-03-28 | 2013-07-03 | 株式会社東芝 | 情報推薦装置および情報推薦方法 |
US9355090B2 (en) * | 2008-05-30 | 2016-05-31 | Apple Inc. | Identification of candidate characters for text input |
WO2010023938A1 (ja) * | 2008-08-29 | 2010-03-04 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体 |
US8380741B2 (en) * | 2008-08-29 | 2013-02-19 | Nec Corporation | Text mining apparatus, text mining method, and computer-readable recording medium |
US9400790B2 (en) * | 2009-12-09 | 2016-07-26 | At&T Intellectual Property I, L.P. | Methods and systems for customized content services with unified messaging systems |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US20130138474A1 (en) * | 2011-11-25 | 2013-05-30 | International Business Machines Corporation | Customer retention and screening using contact analytics |
WO2016024262A1 (en) * | 2014-08-15 | 2016-02-18 | Opisoftcare Ltd. | Method and system for retrieval of findings from report documents |
CN110019641B (zh) * | 2017-07-27 | 2023-09-08 | 北大医疗信息技术有限公司 | 一种医疗否定术语的检出方法及系统 |
US10498888B1 (en) * | 2018-05-30 | 2019-12-03 | Upcall Inc. | Automatic call classification using machine learning |
CN108984745B (zh) * | 2018-07-16 | 2021-11-02 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS617938A (ja) * | 1984-06-22 | 1986-01-14 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JP3220885B2 (ja) * | 1993-06-18 | 2001-10-22 | 株式会社日立製作所 | キーワード付与システム |
JPH08335265A (ja) * | 1995-06-07 | 1996-12-17 | Canon Inc | 文書処理装置および方法 |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
JP3475009B2 (ja) * | 1996-05-24 | 2003-12-08 | 富士通株式会社 | 情報検索装置 |
JPH1027181A (ja) * | 1996-07-11 | 1998-01-27 | Fuji Xerox Co Ltd | 文書評価装置 |
US6898586B1 (en) * | 1998-10-23 | 2005-05-24 | Access Innovations, Inc. | System and method for database design and maintenance |
US6801659B1 (en) * | 1999-01-04 | 2004-10-05 | Zi Technology Corporation Ltd. | Text input system for ideographic and nonideographic languages |
JP4404323B2 (ja) * | 1999-02-05 | 2010-01-27 | 経済産業大臣 | シソーラスブラウジングシステムと方法 |
JP2001101226A (ja) * | 1999-10-01 | 2001-04-13 | Ricoh Co Ltd | 文書群分類装置および文書群分類方法 |
JP3764618B2 (ja) * | 1999-12-27 | 2006-04-12 | 株式会社東芝 | 文書情報抽出装置および文書分類装置 |
JP2002140465A (ja) * | 2000-08-21 | 2002-05-17 | Fujitsu Ltd | 自然文処理装置及び自然文処理用プログラム |
JP3864687B2 (ja) * | 2000-09-13 | 2007-01-10 | 日本電気株式会社 | 情報分類装置 |
US20040205671A1 (en) * | 2000-09-13 | 2004-10-14 | Tatsuya Sukehiro | Natural-language processing system |
US6622140B1 (en) * | 2000-11-15 | 2003-09-16 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
JP2002169943A (ja) * | 2000-11-30 | 2002-06-14 | Nbc:Kk | 情報整理方法及び情報整理装置 |
JP2002183175A (ja) * | 2000-12-08 | 2002-06-28 | Hitachi Ltd | テキストマイニング方法 |
-
2002
- 2002-11-26 JP JP2002341671A patent/JP2004178123A/ja active Pending
-
2003
- 2003-06-30 CN CNA031483518A patent/CN1503164A/zh active Pending
- 2003-07-22 US US10/623,598 patent/US20040158558A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122909B (zh) * | 2006-08-10 | 2010-06-16 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101149747B (zh) * | 2006-09-21 | 2010-06-23 | 索尼株式会社 | 用于处理信息的装置和方法、以及程序 |
CN102063461A (zh) * | 2009-11-06 | 2011-05-18 | 株式会社理光 | 发言记录装置以及发言记录方法 |
US8862473B2 (en) | 2009-11-06 | 2014-10-14 | Ricoh Company, Ltd. | Comment recording apparatus, method, program, and storage medium that conduct a voice recognition process on voice data |
Also Published As
Publication number | Publication date |
---|---|
JP2004178123A (ja) | 2004-06-24 |
US20040158558A1 (en) | 2004-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
CN1503164A (zh) | 信息处理装置、用于实现该信息处理装置的程序 | |
US9015194B2 (en) | Root cause analysis using interactive data categorization | |
JP5492187B2 (ja) | 編集距離および文書情報を使用する検索結果順位付け | |
US6665661B1 (en) | System and method for use in text analysis of documents and records | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
CA2638558C (en) | Topic word generation method and system | |
US20190012753A1 (en) | Systems and methods for image searching of patent-related documents | |
US20040249808A1 (en) | Query expansion using query logs | |
US20040098385A1 (en) | Method for indentifying term importance to sample text using reference text | |
CN1664818A (zh) | 用于单词拆分的新词收集方法和系统 | |
KR101098832B1 (ko) | 개인화 검색 장치 및 방법 | |
US11232137B2 (en) | Methods for evaluating term support in patent-related documents | |
CN105095175A (zh) | 获取截短的网页标题的方法及装置 | |
CN1786947A (zh) | 基于网页页面布局提取网页核心内容的系统、方法和程序 | |
CN1855102A (zh) | 信息处理装置,信息处理方法和程序 | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
CN103530311A (zh) | 对元数据进行优先次序排序的方法和装置 | |
CN103034709B (zh) | 检索结果重排序系统及其方法 | |
JP7256357B2 (ja) | 情報処理装置、制御方法、プログラム | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
US20060005123A1 (en) | Information retrieval terminal | |
JP3928351B2 (ja) | 確率を用いた特徴単語の選択方法 | |
CN109710844A (zh) | 基于搜索引擎的快速准确定位文件的方法和设备 | |
JP3880534B2 (ja) | 文書分類方法及び文書分類プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |