CN104584005B - 文档分类装置及文档分类方法 - Google Patents

文档分类装置及文档分类方法 Download PDF

Info

Publication number
CN104584005B
CN104584005B CN201380042988.1A CN201380042988A CN104584005B CN 104584005 B CN104584005 B CN 104584005B CN 201380042988 A CN201380042988 A CN 201380042988A CN 104584005 B CN104584005 B CN 104584005B
Authority
CN
China
Prior art keywords
word
document
classification
language
corresponding relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380042988.1A
Other languages
English (en)
Other versions
CN104584005A (zh
Inventor
后藤和之
祖国威
宫部泰成
岩崎秀树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN104584005A publication Critical patent/CN104584005A/zh
Application granted granted Critical
Publication of CN104584005B publication Critical patent/CN104584005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

根据实施方式,文档分类装置具有:类目生成部(7),以语言不同的多个文档当中的相同语言的多个文档为对象进行聚类,由此来按照每个语言生成类目;单词间对应关系抽取部(6),使用语言不同的文档间的对应关系,基于语言不同的单词在存在对应关系的文档间同现地出现的频率,抽取不同单词的单词间的对应关系;以及类目间对应关系抽取部(8),基于单词间的对应关系,抽取将语言不同的文档进行了分类的类目间的对应关系。

Description

文档分类装置及文档分类方法
技术领域
本发明的实施方式涉及用于将电子化的大量文档根据其内容来进行分类的文档分类装置及文档分类方法。
背景技术
近年来,随着计算机的高性能化、存储介质的大容量化及计算机网络的普及等,使得使用计算机系统来大量地收集、存储并利用电子化的文档的信息成为了可能。作为用于将这样的大量文档整理成容易利用的形式的技术,期待有文档的自动分类及聚类等技术。
特别是如今企业等的活动的迅速国际化不断进展。在该状况下,需要高效地分类不仅用1个语言而是用如日语、英语、中文这样的多个自然语言来记述的文档。
例如有想要将在多个国家申请的专利文档无关于语言的不同而基于内容的相似性进行分类来分析申请趋势的需求。此外,例如还有想要在各国的接待中心受理针对在多个国家销售的产品的来自顾客的提问及投诉等信息并对该信息进行分类·分析的需求。此外,例如还有想要收集并分析在因特网上公开的用各种语言来记载的新闻报道、对产品·服务等的评论·意见等信息的需求。
作为将语言不同的的文档集合基于内容的相似性来跨语言地分类的方法之一,有使用机械翻译技术的方法。这是如下的方法:翻译用母语以外的语言(例如在日语为母语的情况下,为英语或中文)记述的文档,从而能够将全部文档作为1个语言(即母语)的文档来处理,在此基础上,进行自动分类或聚类等。
然而,该方法中,机械翻译的精度会影响到自动分类等处理的精度,存在如由于翻译错误等原因而导致文档无法被恰当地分类这样的、精度的问题。此外,一般来讲,机械翻译的处理用的计算成本很大,因此,在以大量文档为对象的情况下存在性能方面的问题。
进而,在多个用户对文档进行分类来利用的情况下,可以想到文档的母语也互不相同,要预先设想到该点而将大量文档翻译成多个语言是很困难的。
作为将用多个语言记述的文档集合跨语言地进行分类的方法,有使用对译辞典(或称作互译辞典)的方法。在此对译辞典是指,将用某个语言记述的单词或语句等的表述与其他语言的相同意思的表述之间相互建立了对应的辞典或同义词词典(thesaurus)。以下,为了简单起见,包括合成词及短语等在内,仅记作单词。
作为使用对译辞典来实现跨语言分类的方法的例子,首先,在用多个语言记述的文档集合当中,对用某个语言1记述的文档的部分集合进行分类来制作类目。然后,将表示该各类目的特征的语言a的单词,例如通过单词向量的形式来求出。另一方面,关于另外的语言b的文档,求出表示其特征的语言b的单词向量。
在此,如果能够将语言a的各类目的单词向量的各维(换句话说语言a的单词)与语言b的文档的单词向量的各维(换句话说语言b的单词)使用对译辞典建立对应的话,就能够计算语言a的单词向量与语言b的单词向量的相似度。然后,基于该相似度,能够将语言b的文档在语言a的类目当中分类到恰当的类目中。
在使用这样的对译辞典的方法中,对译辞典的质和量很重要。但是,要全部通过手动来制作的话需要劳力。于是,作为半自动地制作对译辞典的方法,有如下方法:对用某个语言记述的单词,基于在各语言的语料库(corpus:收集了文例的数据库)中的单词的同现频率和通用的对译辞典,来求出用恰当的其他的语言记述的单词,来作为其对译。
该方法中,首先,作为用于制作对译辞典的对象的单词,例如需要指定专门用语等,该专门用语的用一个语言进行的表述是已知的而用与该表述对应的另一个语言进行的表述是未知的。然而,在对内容未知的文档进行分类的情况下,无法预先设想是要对什么样的单词来制作对译辞典。
因此,使用同现频率和对译辞典的方法不适于利用聚类等探索式的分类手法来对未知内容的文档进行分类这样的目的。此外,在上述的方法中,相对于半自动地制作的对译辞典,还需要另外制作通用的对译辞典。但是,根据作为对象的语言,有时无法预先充分地准备其通用的对译辞典。
此外,例如,相对于英语的单词“character”而言,日本的单词有“性格”、“特性”、“人物”、“文字”等。因而,特别是在使用通用的对译辞典的情况下,需要与作为分类的对象的文档集合相对应地选择恰当的对译词。
此外,有使用通过上述方法制作的对译的同义词词典来对文档自动分类的方法。在该方法中,在文档未被分类到恰当的类目中的情况下,通过由用户来修正与类目对应的同义词词典的语义,能够应对分类的错误等。但是,该作业对于不习惯作为对象的语言的用户来讲,特别需要劳力。
先行技术文献
专利文献
专利文献1:特开2001-331484号公报
专利文献2:特开2010-55298号公报
专利文献3:特开2005-107705号公报
发明内容
发明要解决的课题
本发明要解决的课题在于,提供一种文档分类装置及文档分类方法,能够高效地制作用于将用不同的自然语言记述的大量文档基于内容的相似性来跨语言地进行分类的分类构造。
解决课题的手段
根据实施方式,文档分类装置具有:文档存储部,存储语言不同的多个文档;文档间对应关系存储部,存储文档存储部所存储的、语言不同的文档间的对应关系;以及类目存储部,存储用于对文档存储部所存储的多个文档进行分类的类目。
该文档分类装置具有单词抽取部,该单词抽取部从文档存储部所存储的文档抽取单词。
该文档分类装置具有单词间对应关系抽取部,该单词间对应关系抽取部使用文档间对应关系存储部所存储的、用不同语言记述的文档间的对应关系,基于由单词抽取部抽取的单词在存在对应关系的文档间同现地出现的频率,抽取该单词间的对应关系。
该文档分类装置具有类目生成部,该类目生成部基于文档存储部所存储的语言相同的文档间的、由单词抽取部抽取的单词在各文档中出现的频率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成类目。
该文档分类装置具有类目间对应关系抽取部,该类目间对应关系抽取部以由类目生成部按照每个语言生成的类目为对象,基于在被分类到各类目中的文档中出现的单词的频率、由单词间对应关系抽取部抽取到的用不同语言记述的单词间的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词与在被分类到其他类目中的文档中出现的频率较多的单词之间,单词间的对应关系存在得越多则视为该类目间的相似度越高,由此,抽取将用不同语言记述的文档进行了分类的类目间的对应关系。
附图说明
图1是表示实施方式的多语言文档分类装置的结构例的框图。
图2是表示实施方式的多语言文档分类装置的结构例的框图。
图3是表示实施方式的多语言文档分类装置的结构例的框图。
图4是表示实施方式的多语言文档分类装置的结构例的框图。
图5是表示实施方式的多语言文档分类装置的结构例的框图。
图6A是用表形式来表示文档存储部所存储的文档的一例的图。
图6B是用表形式来表示文档存储部所存储的文档的一例的图。
图6C是用表形式来表示文档存储部所存储的文档的一例的图。
图7A是用表形式来表示类目存储部所存储的类目的一例的图。
图7B是用表形式来表示类目存储部所存储的类目的一例的图。
图7C是用表形式来表示类目存储部所存储的类目的一例的图。
图7D是用表形式来表示类目存储部所存储的类目的一例的图。
图8是用表形式来表示文档间对应关系存储部所存储的文档间的关系的一例的图。
图9是用表形式来表示辞典存储部所存储的辞典词的一例的图。
图10是表示单词抽取部的处理步骤的一例的流程图。
图11是表示单词间对应关系抽取部的处理步骤的一例的流程图。
图12是表示由单词间对应关系抽取部抽取的单词间的关系的例的图。
图13是表示类目生成部的处理步骤的一例的流程图。
图14是表示用于生成类目的多个单词向量的处理步骤的一例的流程图。
图15是表示类目间对应关系抽取部的处理步骤的一例的流程图。
图16A是用表形式来表示由类目间对应关系抽取部抽取的类目间的关系的一例的图。
图16B是用表形式来表示由类目间对应关系抽取部抽取的类目间的关系的一例的图。
图17是表示事例基准文档分类部的处理步骤的一例的流程图。
图18是表示类目特征词抽取部的处理步骤的一例的流程图。
图19是表示类目特征词变换部的处理步骤的一例的流程图。
图20是用表形式来表示由类目特征词抽取部抽取并由类目特征词变换部变换的特征词的一例的图。
图21是表示分类规则变换部的处理步骤的一例的流程图。
图22A是用表形式来表示由分类规则变换部变换的类目的分类规则的一例的图。
图22B是用表形式来表示由分类规则变换部变换的类目的分类规则的一例的图。
图23是表示辞典变换部的处理步骤的一例的流程图。
图24A是用表形式来表示由辞典变换部变换的辞典词的一例的图。
图24B是用表形式来表示由辞典变换部变换的辞典词的一例的图。
具体实施方式
以下,参照附图对实施方式进行说明。
图1~图5是表示各实施方式的多语言文档分类装置的结构例的框图。在图1~图5所示的各结构中,根据实现的功能而局部地设置不同的单元。但是,作为基本单元的文档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部5、单词间对应关系抽取部6在各结构中是共同的单元。以下,主要使用代表性的结构的图1来进行说明。
图1中,文档存储部1存储由文档分类装置作为分类的对象的多个文档的数据。文档存储部1例如通过非易失性存储器这样的存储装置来实现。该文档存储部1中,语言不同的文档的数据被分别存储来管理。图1中,将该文档存储部用第一语言文档存储部、第二语言文档存储部、……、第n语言文档存储部这样的形式来进行表示。具体地讲,用例如日语、英语、中文这样的语言记述的文档被存储在各语言用的文档存储部中。
单词抽取部2从文档的数据抽取单词。具体地讲,单词抽取部2如后述那样,通过词素解析等抽取作为文档的分类等处理所必要的数据的单词,求出各单词在各文档中的出现频率等。
为了应对语言不同的文档,如图1所示,单词抽取部2由第一语言单词抽取部、第二语言单词抽取部、……、第n语言单词抽取部这样的、各语言用的单元来构成。具体地讲,单词抽取部2分别设置有用于以日语、英语、中文这样的语言为对象来进行词素解析等处理的单元。
类目存储部3存储对文档进行分类的类目的数据并进行管理。例如通过非易失性存储器这样的存储装置来实现。一般来讲,类目存储部3中,通过构成层级构造的多个类目来将文档根据内容进行分类。该类目存储部3中存储有分类到各类目中的文档的数据、类目的层级构造中的类目间的母子关系等数据。
类目操作部4受理用户对类目存储部3所存储的类目的数据进行阅览或编辑等操作。
该类目操作部4一般来讲使用图形用户界面(GUI)来实现。通过该类目操作部4,用户能够进行以文档为对象的操作。
该操作具体地讲为,以类目为对象的操作、使文档分类到类目中或将已分类到类目中的文档移动到其他类目等操作。以类目为对象的操作为类目的制作、删除、移动(层级构造中母子关系的调换)、复制、统合(将多个类目归为1个)等操作。
文档间对应关系存储部5存储文档存储部1所存储的文档间的对应关系。该文档间对应关系存储部5通过例如非易失性存储器这样的存储装置来实现。一般来讲,在文档间对应关系存储部5中,存储有表示用不同语言记述的文档间的对应关系的数据并进行管理。在以专利文档为分类对象的情况下,文档间的具体的对应关系例如能够列举出日本专利与美国专利之间的基于优先权或国际专利申请的对应关系等。
单词间对应关系抽取部6基于由单词抽取部2从用各语言记述的文档中抽取的单词、以及文档间对应关系存储部5所存储的文档间的对应关系,自动地抽取用不同语言记述的单词间的对应关系。
由单词间对应关系抽取部6抽取到的、用不同语言记述的单词间的具体的对应关系例如为,日语的单词“文字”、英语的单词“character”、中文的单词“字符”之间的对应关系等、接近对译的对应关系。
图1所示的类目生成部7和类目间对应关系抽取部8实现图1的结构所固有的功能。
类目生成部7以用相同语言记述的多个文档为对象,基于由单词抽取部2从各文档抽取到的单词的出现频率的相似性,对文档进行聚类,由此自动生成类目。
类目间对应关系抽取部8一般来讲,自动地抽取作为由类目生成部7生成的类目的、用于对语言不同的文档群进行分类的多个类目间的对应关系。由这些单元生成的类目及类目间的对应关系被存储在类目存储部3中。
根据图1所示的实施方式,以用多个不同自然语言记述的多个文档为对象,按照每个语言自动生成有对用各语言记述的文档进行分类的分类构造。此外,自动地抽取将用不同语言记述的文档进行分类的类目间的对应关系。在图1所示的实施方式中,通过对获得了对应关系的类目彼此进行统合,能够不依赖于语言地容易地制作对内容相似的文档进行分类的类目。
在图2所示的实施方式的结构中,多语言文档分类装置除了具有图1所示的文档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部及单词间对应关系抽取部6之外,还具有用于实现图2的结构所固有的功能的事例基准文档分类部9。
该事例基准文档分类部9进行自动分类的处理。具体地讲,事例基准文档分类部9以类目存储部3所存储的1个或者多个类目为对象,基于已经分类到各类目中的1个或者多个已分类文档,自动地决定是否应该将还未分类到该类目中的未分类文档分类到该类目中。
事例基准文档分类部9基于由单词抽取部2从各文档抽取到的单词、以及由单词间对应关系抽取部6抽取到的单词间的对应关系,不仅以类目的与已分类文档用相同的语言记述的未分类文档,还以用其他语言记述的未分类文档为对象,能够决定是否将其分类到该类目中。
根据图2所示的实施方式,多语言文档分类装置能够基于作为已经分类到某个类目中的文档的、用某个语言记述的文档,将内容与该文档相似的用其他语言记述的文档自动地分类到该类目中。由此,不需要将用全部语言记述的文档作为监督文档(日文原文“教師文書”)分类到类目中,仅将用内容容易被用户理解的语言记述的文档作为监督文档进行分类即可,因此,能够容易地对文档进行分类。
接下来,在图3所示的实施方式的结构中,多语言文档分类装置除了具有图1所示的文档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部5及单词间对应关系抽取部6之外,还具有用于实现图3的结构所固有的功能的单元、即类目特征词抽取部10和类目特征词变换部11。
类目特征词抽取部10以类目存储部3所存储的1个或者多个类目为对象,抽取表示已分类到各类目中的文档的内容的特征性单词。以下,根据需要,将特征性单词称作特征词。
该特征词如后述那样是通过筛选由单词抽取部2从已分类到类目中的文档中抽取到的单词当中的、较好地表达类目的特征的恰当的单词而抽取到的词。
类目特征词变换部11基于由单词间对应关系抽取部6抽取到的用不同语言记述的单词间的对应关系,将用某个语言记述且从类目中抽取到的特征词,变换为用其他语言记述的特征词。
根据图3所示的实施方式,多语言文档分类装置自动地抽取类目的特征词,进而能够将该特征词变换成用户容易理解的语言来进行提示。由此,用户能够容易地理解已分类到类目中的文档的内容。
接下来,在图4所示的实施方式的结构中,多语言文档分类装置除了具有图1所示的文档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部5及单词间对应关系抽取部6之外,还具有用于实现图4的结构所固有的功能的、规则基准文档分类部12和分类规则变换部13。
规则基准文档分类部12通过类目存储部3所存储的类目中设定的分类规则,决定向该类目中分类的文档。一般来讲,各类目的分类规则被规定成,将由单词抽取部2从文档抽取到的单词当中的1个或者多个单词出现的文档分类到该类目中。
分类规则变换部13基于由单词间对应关系抽取部6抽取到的用不同语言记述的单词间的对应关系,将用于对用某个语言记述的文档进行分类的分类规则,变换成用于对用其他语言记述的文档进行分类的分类规则。
根据图4所示的实施方式,多语言文档分类装置针对用于规定分类到类目中的文档的分类规则,将用于对用某个语言记述的文档进行分类的分类规则,自动地变换为用于对用其他语言记述的文档进行分类的分类规则。由此,能够减轻由用户来制作或维护分类规则的作业。
接下来,在图5所示的实施方式的结构中,多语言文档分类装置除了具有图1所示的文档存储部1、单词抽取部2、类目存储部3、类目操作部4、文档间对应关系存储部5、单词间对应关系抽取部6、类目生成部7及类目间对应关系抽取部8之外,还具有作为用于实现图5的结构所固有的功能的单元的、辞典存储部14、辞典设定部15及辞典变换部16。图5中示出了将这些辞典存储部14、辞典设定部15、辞典变换部16追加到图1所示的结构中的例子。但是,这些辞典存储部14、辞典设定部15、辞典变换部16也可以是追加到图2~图4所示的结构中来配设。
即,辞典存储部14存储用于规定图1的类目生成部7、图2的事例基准文档分类部9、或者图3的类目特征词抽取部10的处理中的单词的使用方法的辞典。辞典存储部14例如通过非易失性存储器等存储装置来实现。
根据图5所示的实施方式,多语言文档分类装置针对用于规定在类目的自动生成、文档的自动分类的处理中使用的重要词、不需要词及同义词的辞典,能够将用某个语言记述的辞典词自动地变换为用其他语言记述的辞典词。由此,能够减轻用户制作或维护辞典的作业。
如后述那样,在辞典存储部14所存储的辞典中,能够将文档的分类、类目的特征词的抽取等处理中作为应该重视的单词的重要词、作为应该忽略的单词的不需要词、作为应该视为相同的单词的组的同义词的某个或者多个,作为辞典词来设定。辞典设定部15将这些辞典词设定在辞典中。
辞典变换部16将用某个语言记述且设定于辞典中的辞典词,基于由单词间对应关系抽取部6抽取到的用不同语言记述的单词间的对应关系,变换成用其他语言记述的辞典词。
图6A、图6B、图6C是以表形式来表示文档存储部1所存储的文档的数据的一例的图。图6A、图6B、图6C所示的合计3个文档的数据的例子中,在图6A所示的行601中被赋予独特的文档号码“dj01”。在图6B所示的行605中被赋予独特的文档号码“dj02”。在图6C所示的行606中被赋予独特的文档号码“de03”。
此外,作为记述文档的语言,在图6A所示的行602中记载有“日语”,在图6C所示的行607中记载有“英语”。在该例子是对专利的摘录数据的一部分进行了表示的例子。各文档具有图6A的行603中的名称“デジタルカメラ”、行604中的摘要“撮像素子によって入力した……”这样的、文本的数据。一般来讲根据这些文本的内容来进行文档的分类,但是,如图6A、图6B、图6C所示,各文档的文本是用不同语言来记述的。
图7A、图7B、图7C、图7D是表示图1~图5的类目存储部所存储的类目的数据的例子的图。
如图7A、图7B、图7C、图7D所示,例如图7A的行701的类目号码“c01”、图7B的行706的类目号码“c02”等那样,各类目被赋予了独特的类目号码。各类目的数据中记载了该类目与母类目之间的关系。由此,表述了多个类目所构成的层级构造。
例如,图7A所示的类目的母类目为行702所示的“(无)”。因此,该类目为层级构造的最上位,换句话说为根类目。
此外,图7B的类目的母类目为行707所示的“c01”。因此,与图7A所示的类目号码“c01”对应的类目是该图7B所示的类目的母类目。
在各类目中,如图7A的行703的“デジタルカメラ”、图7B的行708的“顔-検出”那样,记载有名称。这些名称有时由文档分类装置自动地赋予给类目,也有时由用户明示地赋予。
在各类目的数据中,对分类到该类目中的文档,以分类规则或者文档集合的形式进行记载。例如在图7A所示的类目中,如行704所示,分类规则为“(无)”,如行705所示,文档集合为“(全部)”。因此,文档存储部1所存储的全部文档被分类到该类目中。
在图7B所示的类目中,如行709所示,分类规则为“(无)”,如行710所示,文档集合中记载有“dj02”、“dj17”等文档号码。因此,与这些文档号码对应的文档被分类到该类目中。
在图7C的类目中,如行712所示,设有有分类规则“contains(摘要,“露光”)”。通过该分类规则,文档的“摘要”的文本中包含有“露光”这一单词的文档被分类到该类目中。另外,在图7C所示的类目中,如行713所示,在文档集合中,不同于图7B中的行710所示的例子,未明示地记载文档号码,而记为“(基于分类规则)”。基于该分类规则的文档集合被分类到该类目中。
通过分类规则对文档进行分类的处理是通过图4所示的规则基准文档分类部12来执行的。但是,该处理一般来讲通过从数据库等存储单元中检索满足分类规则的文档来执行。例如,在分类规则为图7C所示的行712中的分类规则“contains(摘要,“露光”)”的情况下,多语言文档分类装置在“摘要”的文本中全文检索含有“露光”这一单词的文档,由此,能够求出分类到该类目中的文档。这样的处理能够通过现有技术来实现,因此省略详细说明。
图8是表示图1~图5的文档间对应关系存储部5所存储的文档间的对应关系的数据的例子的图。
通过图8所示的行801、行802的各行来一个一个地表示文档间的对应关系。例如在行801中表示文档号码为“dj02”的文档与文档号码为“de03”的文档之间存在对应关系。即,这是表示图6B所示的日语的文档与图6C所示的英语的文档之间的对应关系。
同样,根据图8所示的行802,文档号码为“dj02”的日语的文档与文档号码为“dc08”的中文的文档之间存在对应关系。此外,根据行803,文档号码为“de03”的英语的文档与文档号码为“dc08”的中文的文档之间存在对应关系。作为结果而表示,文档号码为“dj02”的文档、文档号码为“de03”的文档、文档号码为“dc08”的文档这3个文档全部存在相互关系。
此外,根据图8所示的行804和行805而表示,文档号码为“dj26”的日语的文档与文档号码为“de33”的英语的文档及文档号码为“de51”的英语的文档这两方存在对应关系。这样,也可以是,1个文档与相同语言(该情况为英语)的多个文档存在对应关系。
图9是表示图5所示的辞典存储部14所存储的辞典的数据的例子的图。在辞典存储部14所存储的辞典中,通过图9所示的行901、行902这样的各行,各表示辞典的一个辞典词。例如行901表示为“日语”的“重要词”且表达为“フラッシュ”的辞典词。行903表示为“日语”的“不需要词”且表达为“発明”的辞典词。行905表示为“日语”的“同义词”且表达为“フラッシュ”和“ストロボ”的辞典词。
所谓重要词,是指在后述的文档的分类等处理中重视的单词。例如本实施方式那样通过使用了单词向量的方法来进行文档的分类等处理的情况下,进行将单词向量中的重要词的权重加重为例如2倍的处理。此外,所谓不需要词,是指在文档的分类等处理中忽略的单词。在本实施方式中,进行例如从单词向量中除去不需要词、而不将其作为单词向量的维的这样的处理。
例如,在将专利文档作为分类对象的情况下,“発明”或“装置”这样的单词几乎不表示专利的内容。因此,在本实施方式中,如图9所示那样,将这样的单词设为不需要词。此外,所谓同义词,是指在文档的分类等处理中视为相同的单词。在本实施方式中,例如即使在单词向量中为不同表达,也作为相同的单词、即相同的维来处理。
图10是表示图1~图5的单词抽取部2的处理的流程的的一例的流程图。
首先,单词抽取部2从抽取单词的对象的文档中取得文本(S1001)。在图6A、图6B、图6C所示的例子中,单词抽取部2取得图6A中的行603所示的作为文档的“名称”的“デジタルカメラ”、行604所示的作为“摘要”的“撮像素子によって入力した……”这样的文本。单词抽取部2对取得的该文本进行词素解析(S1002)。该处理的内容根据语言而不同。例如在文本的语言为日语或中文的情况下,单词抽取部2将文本分解为词素,即进行分词隔写,对各词素赋予名词或动词等词性。在文本的语言为英语的情况下,单词抽取部2进行分词隔写处理主要基于空白文字来进行。但是,单词抽取部2与日语和中文时同样地进行词性的赋予。
接下来,单词抽取部2对被赋予了规定词性的词素进行筛选,仅留下需要的词素,除去不需要的词素(S1003)。一般来讲,单词抽取部2进行将独立词及实义词作为分类等处理中使用的词素留下、而将附属词及功能词除去的处理。该处理依赖于语言。
单词抽取部2可以是,在词素例如为英语或中文的动词的情况下,将该词素作为需要的词素留下,在词素为日语的动词的情况下,将该词素作为不需要的词素除去。此外,单词抽取部2也可以是,即使词素为英语的动词,“have”及“make”也作为停止词(stop word)而将该词素除去。
接下来,单词抽取部2对词素的表达进行标准化(S1004)。该处理也是依赖于语言的处理。单词抽取部2例如在抽取到的文本为日语的情况下,也可以是,将“組み合わせ”和“組合せ”等表达偏差吸收,作为相同的词素来对待。此外,单词抽取部2在抽取到的文本为英语的情况下,也可以是,进行被称作词干提取(stemming)的处理,将词干相同的词素作为相同的词素来对待。
接下来,单词抽取部2针对S1004中标准化后的每个词素,求出文档中的出现频率(在此为TF(Term Frequency),即单词频率)(S1005)。单词抽取部2最后输出由S1004标准化后的词素及其出现频率构成的组(S1006)。
图11是表示图1~图5所示的单词间对应关系抽取部6的处理的流程的一例的流程图。
首先,单词间对应关系抽取部6取得文档间对应关系存储部5所存储的数据。单词间对应关系抽取部6使用取得的该数据,将隶属于语言k的文档集合Dk的文档dk与隶属于语言l的文档集合Dl的文档dl之间的、文档间的对应关系的集合,设为Dkl={(dk,dl):dk∈Dk,dl∈Dl,dkdl}(S1101)。
接下来,单词间对应关系抽取部6将由单词抽取部2从Dkl中的语言k的文档dk的每个中抽取到的单词,针对Dkl中的全部文档dk取并集,由此求出语言k的单词集合Tk(S1102)。作为其结果,得到Dkl中的文档中包含的语言k的单词及其出现频率(在此为DF(Document Frequency),即,文档频率)。
单词间对应关系抽取部6针对语言l也同样地,将由单词抽取部2从Dkl中的语言l的文档dl的每个中抽取到的单词,针对Dkl中的全部文档dl取并集,由此,求出语言l的单词集合Tl(S1103)。接下来,单词间对应关系抽取部6针对单词集合Tk中的各单词tk反复进行(S1104)以下的S1105至S1112的处理。
单词间对应关系抽取部6求出单词tk在Dkl中的文档频率df(tk,Dkl)(S1105)。如果该文档频率为规定的阈值以上(S1106为是),则单词间对应关系抽取部6针对单词集合Tl中的各单词tl反复进行(S1107)以下的S1108至S1112的处理。
首先,单词间对应关系抽取部6求出单词tl的文档频率df(tl,Dkl)(S1108)。如果该文档频率为规定的阈值以上(S1109),则单词间对应关系抽取部6进行以下的S1110以后的处理。
如果单词tk的文档频率df(tk,Dkl)、即该单词出现的文档数小于规定的阈值(例如小于5件)(S1106为否),则单词间对应关系抽取部6视为用于针对该单词高精度地求出与用其他语言记述的单词之间的对应关系的数据在Dkl中是不足的,返回S1104。
此外,如果单词tl的文档频率df(tl,Dkl)、即该单词出现的文档数小于规定的阈值(例如小于5件)(S1109为否),则单词间对应关系抽取部6视为用于针对该单词高精度地求出与用其他语言记述的单词之间的对应关系的数据在Dkl中是不足的,返回S1107。
如果文档频率df(tl,Dkl)为规定的阈值以上(S1109为是),则单词间对应关系抽取部6求出单词tk和单词tl在Dkl中的同现频率df(tk,tl,Dkl)。该同现频率是指含有单词tk的文档和含有单词tl的文档之间的对应关系的个数。此外,单词间对应关系抽取部6使用该同现频率,基于以下的式(1)求出表示单词tk和单词kl在Dkl中的同现的大小的DICE系数(Dice)。单词间对应关系抽取部6通过以下的式(2)求出同样表示Dkl中的同现的大小的辛普森(Simpson)系数(S1110)。
dice(tk,tl,Dkl)=df(tk,tl,Dkl)/(df(tk,Dkl)+df(tl,Dkl))……式(1)
simp(tk,tl,Dkl)=df(tk,tl,Dkl)/min(df(tk,Dkl),df(tl,Dkl))……式(2)
如果同现频率df(tk,tl,Dkl)、DICE系数dice(tk,tl,Dkl)、辛普森系数simp(tk,tl,Dkl)分别为规定的阈值以上(S1111为是),则单词间对应关系抽取部6将单词tk与单词tl的关系作为单词间的对应关系的候选。单词间对应关系抽取部6将与单词间的对应关系的候选对应的分数,设为α*dice(tk,tl,Dkl)+β*simp(tk,tl,Dkl)(α和β为常量)(S1112)。最后,单词间对应关系抽取部6将这样求出的单词间的对应关系的多个候选,按照分数从大到小的顺序输出(S1113)。
在本实施方式中,这样,使用基于文档频率(DF)的Dice系数和Simpson系数来判定用不同语言记述的单词tk与单词tl之间的关系作为对译词或关联词是否恰当,。根据该方法,多语言文档分类装置仅使用文档单位的对应关系、即不是文章单位的对译关系而是大概的对应关系,能够高精度地抽取单词间的对应关系。但是,在本实施方式中,不限定于上述的方法及数式,例如也可以使用交互信息等其他数式,也可以使用考虑了单词频率(TF)的方法。
图12是表示作为图11所说明的单词间对应关系抽取部6的处理的结果而抽取到的、日语与英语的单词间的对应关系的例子的图。
如图12所示,例如在行1201中,抽取到相对于日语的单词“露光”的英语的单词“exposure”,并与分数一起输出。多语言文档分类装置如行1201和行1202的例子那样,能够得到英语的1个单词“exposure”与日语的多个单词“露光”、“露出”之间的对应关系。相反,多语言文档分类装置如行1206和行1207的例子那样,也能够相对于日语的1个单词“検索”得到英语的多个单词“search”和“retrieve”。
此外,通过对单词间的对应关系赋予的分数,来定量地表示对应关系的恰当程度。由此,多语言文档分类装置能够根据用途,例如仅选择分数高的对应关系、即为正确的对译词的可能性高的对应关系来使用。
图13是表示图1或者图5的类目生成部7的处理的流程的一例的流程图。
该处理是以用某1个语言记述的文档集合为对象来进行聚类,由此来自动地生成将内容相似的文档归集起来的类目(群集(cluster))的处理。
首先,类目生成部7将作为类目生成的对象的语言l的文档集合设为Dl,将作为类目生成的结果的、类目集合Cl的初始值设为空集合(S1301)。类目生成部7针对该文档集合Dl中的各文档dl反复执行(S1302)以下的S1303至S1314的处理。
类目生成部7根据使用单词抽取部2从文档dl中抽取到的单词,求出dl的单词向量vdl(S1303)。单词向量是指,将文档中出现的各单词作为向量的维、将各单词的权重作为向量在该维的值的向量。该单词向量能够使用现有技术来求出。单词向量的各单词的权重例如以下的式(3)所示那样,一般能够通过被称作TFIDF的方法来计算。
tfidf(tl,dl,Dl)=tf(tl,dl)*log(|Dl|/df(tl,Dl))……式(3)
式(3)中,tf(tl,dl)为单词tl在文档dl中的单词频率(TF),df(tl,Dl)为单词tl在文档集合Dl中的文档频率(DF)。另外,tf(tl,dl)也可以单纯为在文档dl中单词tl的出现次数。此外,tf(tl,dl)例如也可以是文档dl中出现的全部单词的出现次数的总和除以各单词的出现次数而进行了标准化后的值。
此外,在针对某个文档的部分集合Dcl()求出单词向量的情况下,类目生成部7能够将单词向量的单词tl的权重,如以下的式(4)所示那样,作为Dcl中的各文档dl的单词向量的单词tl的权重的总和来计算。
tfidf(tl,Dcl,Dl)=(Σdl∈Dcl(tf(tl,dl)))*log(|Dl|/df(tl,Dl))……式(4)
另外,在图5所说明的、构成为使用辞典的实施方式中,类目生成部7也可以在该S1303的步骤中进行增加单词向量中的重要词的权重、或删除不需要词、或将作为同义词的多个单词归集为1个维的处理。
此外,关于类目生成部7中的计算,不限于式(3)及式(4)。具体地讲,该计算只要是用于求出单词向量的各单词的权重的计算即可。此外,被进行同样的处理即可,那么该计算不限于一定由类目生成部7来进行。
接下来,类目生成部7将文档dl的分类目的地类目cmax的初始值设为“无”,将dl与cmax的相似度的最大值smax的初始值设为0(S1304)。然后,类目生成部7针对类目集合Cl中的各类目cl反复执行(S1305)以下的S1306至S1308的处理。
类目生成部7根据类目cl的单词向量vcl与文档dl的单词向量vdl的余弦值cos(vcl,vdl),求出类目cl与文档dl的相似度s(S1306)。
接下来,类目生成部7在相似度s为规定的阈值以上并且大于smax(S1307为是)的情况下,类目生成部7设为cmax=cl、smax=s(S1308)。
该反复处理(S1305)的结果,如果存在类目cmax(S1309为是),则类目生成部7将文档dl分类到该类目cmax中(S1310)。然后,类目生成部7对类目cmax的单词向量vcmax加上文档dl的单词向量vdl(S1311)。结果,单词向量vcmax的各单词的权重如式(4)所示那样,成为加上了基于文档dl的单词频率的权重之后的值。
另一方面,如果不存在类目cmax(S1309为否),则类目生成部7新制作类目cnew,将其追加到类目集合Cl中(S1312)。类目生成部7将文档dl分类到类目cnew中(S1313),将类目cnew的单词向量vcnew设为文档dl的单词向量vdl(S1314)。
作为以上的反复处理(S1302)的结果,对文档集合进行了聚类后的结果而得的类目被生成在类目集合Cl中,但是类目生成部7将该生成的类目当中文档数小于规定的阈值的类目删除(S1315)。即,例如文档数仅为1件的类目没有意义,因此,类目生成部7将这样的类目从类目的生成结果中除去。
此外,类目生成部7针对所生成的各类目cl,使用其单词向量vcl,设定该类目的名称(S1316)。类目生成部7例如将类目的单词向量当中权重最大的单词选择1个或者多个来作为名称即可。例如在图7B所示的例子中,能够使用行708所示的2个单词“顔”和“検出”来设定类目的名称“顔-検出”。这样生成的类目成为将单词向量的相似度较大的文档彼此归集起来的类目。图13所说明的处理是一般被称作leader-follower法的聚类手法。但是,在本实施方式中,不限于该手法,例如也可以使用层级型聚类的手法或k-means法等手法。
图14是表示生成类目的多个语言的单词向量的处理的流程的一例的流程图。
该处理是作为为了求出在后述的图15和图17所示的处理中使用的单词向量而在图15的S1504(类目间对应关系抽取部8)和图17的S1704(事例基准文档分类部9)中分别进行的处理来执行的。已分类到类目中的文档的语言根据类目而不同。例如,存在如下那样的情况:某个类目中仅被分类有日语的文档,而其他类目中被分类有大量的英语的文档和少量的中文的文档。
在这样的各种类目之间,为了判定内容的相似性,在图14的处理中目的在于,基于仅被分类有例如日语的文档的类目,生成英语或中文的单词向量。
另外,在与图1对应的第一实施方式中通过类目间对应关系抽取部8实施以下的处理,在与图2对应的第二实施方式中通过事例基准文档分类部9实施以下的处理。因此,预先明示以下的“单词向量生成处理”是通过类目间对应关系抽取部8或者事例基准文档分类部9实施的处理。
首先,在单词向量生成处理中,多语言文档分类装置针对多个语言当中的各语言l反复(S1401)执行以下的S1402至S1406的处理。在单词向量生成处理中,多语言文档分类装置将已被分类到类目c中的语言l的文档集合设为Dcl(S1402)。在单词向量生成处理中,根据类目c和语言l的种类,也有时文档集合Dcl为空集合。接着,在单词向量生成处理中,多语言文档分类装置将类目c的语言l的单词向量的初始值vcl设为空向量(全部维的权重为0)(S1403)。
接下来,在单词向量生成处理中,多语言文档分类装置针对文档集合Dcl中的各文档dl反复(S1404)求出文档dl的单词向量vdl(S1405)。在单词向量生成处理中,多语言文档分类装置对类目c的语言l的单词向量vcl加上文档dl的单词向量vdl(参照式(4))(S1406)。这样,首先,基于实际已被分类到类目c中的语言l的文档集合Dcl本身,生成了各语言l的单词向量。但是,若如上所述那样文档集合Dcl为空集合,则单词向量vcl也为空向量。
接下来,在单词向量生成处理中,多语言文档分类装置再次针对多个语言当中的各语言l反复(S1407)执行以下的S1408至S1413的处理。在单词向量生成处理中,多语言文档分类装置将类目c的语言l的单词向量vcl’设为空向量(S1408)。该单词向量vcl’是与S1405中求出的单词向量vcl不同的另外的向量,但是在单词向量生成处理中,首先对单词向量vcl’加上单词向量vcl(S1409)。
接下来,在单词向量生成处理中,多语言文档分类装置针对语言l以外的各语言k反复(S1410)执行以下的S1411至S1413的处理。在单词向量生成处理中,多语言文档分类装置使用图1~图5所示的单词间对应关系抽取部6,通过图10所示的处理,取得语言k与语言l的单词间的对应关系(S1411)。
接着,在单词向量生成处理中,多语言文档分类装置将类目c的语言k的单词向量vck变换为语言l的单词向量vckl(S1412)。在S1411所取得的单词间的对应关系中,如图12所说明的那样,得到了语言k的单词tk、语言l的单词tl、以及其对应关系的分数。于是,在单词向量生成处理中,多语言文档分类装置通过以下的式(5),取得语言k的单词向量vck的单词tk的权重weight(vck,tk)、单词tk与单词tl之间的对应关系的分数score(tk,tl)。多语言文档分类装置使用该取得结果,求出语言l的单词向量vckl的单词tl的权重。
weight(vckl,tl)=Σtk(weight(vck,tk)*score(tk,tl))……式(5)
在此,单词向量vck的单词k的权重weight(vck,tk)也可以是式(4)所说明的TFIDF。此外,单词k与单词l之间的对应关系的分数score(tk,tl)也可以是图11所说明的α*dice(tk,tl,Dkl)+β*simp(tk,tl,Dkl)。另外,如果不存在与单词tl具有对应关系的语言k的单词tk,则单词向量vckl中的单词tl的权重为0。但是,不需要单词向量的全部维的权重都是大于0的值。
在单词向量生成处理中,多语言文档分类装置将这样将语言k的单词向量变换成了语言l后的单词向量vckl加在单词向量vcl’中(S1413)。
通过S1410的反复处理,生成了类目c的语言l的单词向量vcl’。此外,通过S1407的反复处理,生成了类目c的全部语言的单词向量。
根据以上的说明可知,多语言文档分类装置针对仅被分类有例如日语的文档的类目,也能够通过使用日语与英语的单词间的对应关系、日语与中文的单词间的对应关系,来生成英语的单词向量、中文的单词向量。
此外,图14的S1408至S1413的处理是基于各语言l的单词向量vcl来生成单词向量vcl’的处理。由此,多语言文档分类装置对图14的处理进行变形,递归地执行S1408至S1413的处理,由此能够基于各语言的单词向量vcl’,生成使其维进一步增加而使权重精密了的单词向量vcl”。即,多语言文档分类装置与根据单词向量vcl和单词向量vck生成单词向量vcl’同样地,也能够根据单词向量vcl’和单词向量vck’生成单词向量vcl”。
图15是表示图1或者图5所示的类目间对应关系抽取部8的处理的流程的一例的流程图。
该处理是,抽取某个类目集合Cl的各类目cl与其他类目集合Ck的各类目ck之间的对应关系的处理。特别是,该处理是以在被分类有用不同语言记述的文档的类目间抽取基于内容相似性的对应关系为目的的处理。被分类到类目集合Ck和类目集合Cl的各类目中的文档的语言在该图15的处理中不特别设置限制。但是,一般来讲,设为主要的处理对象是对由图1或图5所示的类目生成部7进行图13所示的处理而生成的单一的语言(针对类目集合Ck而言为语言k,针对类目集合Cl而言为语言l)的文档进行分类的类目的集合。
类目间对应关系抽取部8将用于求出与类目集合Ck之间的对应关系的对应目标的类目集合设为Cl(S1501)。类目间对应关系抽取部8针对类目集合Ck的各类目ck反复(S1502)执行以下的S1503至S1509的处理。
类目间对应关系抽取部8首先将类目ck的对应目标的类目cmax的初始值设为“无”,将类目ck与类目cmax的相似度的最大值smax设为0(S1503)。
接下来,类目间对应关系抽取部8求出类目ck的语言k的单词向量vckk’和语言l的单词向量vckl’(S1504)。该S1504的处理是通过图14所说明的处理来进行的。接下来,类目间对应关系抽取部8针对类目集合Cl的各类目cl反复(S1505)执行以下的S1506至S1509的处理。
首先,类目间对应关系抽取部8求出类目cl的语言k的单词向量vclk’和语言l的单词向量vcll’(S1506)。该S1506的处理与S1504的处理同样,是通过图14所说明的处理来进行的。
接下来,类目间对应关系抽取部8使用S1504和S1506所求出的单词向量,将类目ck与类目cl的相似度,作为s=cos(vckk’,vclk’)+cos(vckl’,vcll’)来求出(S1507)。即,类目间对应关系抽取部8根据语言k的单词向量彼此的余弦值与语言l的单词向量彼此的余弦值之和,求出类目间的相似度。
如果该相似度s为规定的阈值以上并且大于smax(S1508为是),则类目间对应关系抽取部8设为类目cmax=cl、smax=s(S1509)。在S1505的反复处理后,如果存在类目cmax,则类目间对应关系抽取部8将该类目cmax设为类目ck的对应目标的类目(S1510)。即,类目间对应关系抽取部8作为类目集合Cl当中被认为是与类目ck之间内容最相似的类目,而获得cmax。此外,该情况的对应关系的相似度(分数)为smax。
另外,在S1507中,将类目ck与cl的对应关系的分数设为语言k与语言l的单词向量的余弦值之和,但是该分数的求出方法没有限定。例如,类目间对应关系抽取部8也可以是,作为语言k的单词向量彼此的余弦值与语言l的单词向量彼此的余弦值的最大值,即s=max(cos(vckk’,vclk’),cos(vckl’,vcll’)),计算分数。
图16A是表示通过图15的处理抽取到的类目间的关系的例子的图。
在图16A的行1601、行1602等各行中,示出了获得了对应关系的类目的名称(该例子中为日语的类目和英语的类目)、作为其对应关系的分数的、通过图15的S1507求出的相似度。
如图13的S1316所说明的那样,在通过图13的处理而自动生成的类目中,使用在被分类到类目中的文档中较多地出现的单词,设定了类目的名称。由此,用户使用图16A所示的行1601所示的作为结果的类目的名称(“顔-検出”和“face-detect”)、图16A所示的行1602所示的作为结果的类目的名称(“画像-検索”和“image-search”)、对应关系的分数,能够简单地确认自动地抽取到的类目间的对应关系是否恰当。
获得了恰当的对应关系的类目彼此也能够使用图1~图5所示的类目操作部4来统合。在图16B中,作为一例,示出了将图16A的行1601的2个类目统合后的结果。这2个类目是图7B所示的类目和图7D所示的类目。
该例子中,如图16B的行1603所示,类目的名称以“顔-検出-face-detect”这样的形式被连结。此外,如图16B的行1604所示,已被分类到类目中的文档集合成为图7B的行710所示的文档集合与图7D的行710所示的文档集合的并集。这样,日语和英语的文档被分类。
根据这样的结构,例如,在以日语的文档、英语的文档和中文的文档混合存在的文档集合为分类对象的情况下,能够高效地制作用于对这些文档基于内容的相似性来跨语言地进行分类的分类构造。即,多语言文档分类装置首先将日语、英语、中文的文档集合按照每个语言分别进行聚类,在各语言中自动生成用于对内容相似的文档进行分类的类目。
接下来,多语言文档分类装置基于用不同语言记述的文档间的对应关系,抽取用不同语言记述的单词间的对应关系。在此,用不同语言记述的文档间的对应关系一般是指对译或者接近对译的关系。作为具体例,在以专利文档为分类对象的情况下,例如能够列举日本专利与美国专利之间的基于优先权或国际专利申请的对应关系等。
作为抽取到的单词间的对应关系,自动地获得例如日语的单词“文字”、英语的单词“character”、中文的单词“字符”的对应关系这样的、接近于对译的对应关系。多语言文档分类装置基于这样的单词间的对应关系,自动地抽取用不同语言记述的类目间的对应关系。
然后,多语言文档分类装置对获得了对应关系的类目彼此跨语言地进行统合,由此,能够不依赖于日语、英语、中文这样的语言地,制作对内容相似的文档进行分类的类目。
接下来,说明图2所示的实施方式中的处理。图17是表示图2所示的事例基准文档分类部9的处理的流程的一例的流程图。
作为现有技术,已经实现了事例基准分类(有监督自动分类(SupervisedAutomatic classification)的技术。该技术为如下技术:将已经分类到类目中的文档作为分类事例(监督文档(Supervised document)),基于该文档,决定是否应该将未分类的文档分类到该类目中。但是,根据图2所示的实施方式中的图17的处理,已经分类到类目中的文档与要被决定是否应该分类到该类目中的未分类的文档也可以是用不同语言来记述的。
在图17所示的处理的流程中,首先,事例基准文档分类部9将文档的分类目的地的候选的类目集合设为C,将分类对象的文档集合设为D(S1701)。事例基准文档分类部9针对类目集合C的各类目c反复(S1702)求出各语言的单词向量。事例基准文档分类部9针对各语言l反复(S1703)求出类目c的语言l的单词向量vcl’(S1704)。该处理是通过图14所说明的处理来进行的。
接下来,事例基准文档分类部9针对文档集合D的各文档dl(用语言l记述的文档)反复(S1705)执行以下的S1706至S1711的处理。
首先,事例基准文档分类部9求出文档dl的语言l的单词向量vdl(S1706)。该处理是通过使用式(3)求出语言l的各单词的权重来进行的。
接下来,事例基准文档分类部9针对类目集合C的各类目c反复(S1707)执行以下的S1708至S1711的处理。
首先,如果文档dl还未被分类到类目c中(S1708为否),则事例基准文档分类部9将类目c与文档dl的相似度s,通过单词向量的余弦值,作为s=cos(vcl’,vdl)来求出(S1709)。文档dl的单词向量vdl为语言l的单词向量。因此,作为与其之间求出相似度的类目的单词向量,使用了相同的语言l的单词向量vcl’。这是在S1704中针对各语言求出的单词向量当中事例基准文档分类部9针对语言l求出的单词向量。
如果相似度s为规定的阈值以上(S1710为是),则事例基准文档分类部9将文档dl分类到类目c中(S1711)。该S1710和S1711的处理也可以变形。例如,事例基准文档分类部9也能够进行如下的变形:选择相似度最大的1个类目来将文档分类到其中,或者,按照相似度从大到小的顺序选择最大的3个类目,将文档分类到其中。
在该图17的处理中,特别是通过S1703和S1704,能够不依赖于已经分类到类目中的文档的语言地获得多个语言的单词向量。因此,事例基准文档分类部9使用该单词向量,针对用哪个语言记述的文档都能够选择分类目的地的类目。
根据这样的结构,多语言文档分类装置例如在某个类目中首先通过手动作业分类有几个用户容易理解的仅母语的文档、例如日语的文档之后,能够基于该日语的文档的分类事例即监督文档,将与其内容相似的英语或中文的文档自动地分类到该类目中。
接下来,对图3所示的实施方式中的处理进行说明。图18是表示图3所示的类目特征词抽取部10的处理的流程的一例的流程图。
类目的特征词是指表示已被分类到类目中的文档的内容的特征性单词。该特征词例如是以用户能简单地理解在类目中已经分类了什么样的文档为目的,从各类目自动地抽取的。
在图18所示的处理中,首先,在将抽取特征词的对象的类目设为c的情况、且将抽取的特征词的语言设为l的情况下,类目特征词抽取部10将已分类到类目c中的语言l的文档集合设为Dcl,将该Dcl的文档中出现的单词的单词集合设为Tcl(S1801)。对使用图1~图5所示的单词抽取部2通过图10所示的处理从文档集合Dcl中的各文档中抽取到的单词取并集,对各单词的文档频率(DF)进行汇总,由此,类目特征词抽取部10得到该单词集合Tcl。这是与例如图11的S1102后S1103中进行的处理相同的处理。
接下来,类目特征词抽取部10针对单词集合Tcl的各单词tcl反复(S1802)通过以下的式(6)求出tcl的分数(S1803)。
mi(t,Dcl,Dl)=df(t,Dcl)/|Dl|*log(df(t,Dcl)*|Dl|/df(t,Dl)/|Dcl|)
+(df(t,Dl)-df(t,Dcl))/|Dl|*log((df(t,Dl)-df(t,Dcl))*|Dl|/df(t,Dl)/(|Dl|-|Dcl|))+(|Dcl|-df(t,Dcl))/|Dl|*log((|Dcl|-df(t,Dcl))*|Dl|/(|Dl|-df(t,Dl))/|Dcl|)
+(|Dl|-df(t,Dl)-|Dcl|+df(t,Dcl))/|Dl|*log((|Dl|-df(t,Dl)-|Dcl|+df(t,Dcl))*|Dl|/(|Dl|-df(t,Dl))/(|Dl|-|Dcl|))……式(6)
但是,df(t,Dcl)/df(t,Dl)≦|Dcl|/|Dl|时,mi(t,Dcl,Dl)=0。
在此,类目特征词抽取部10使用交互信息,根据文档是否已被分类到类目中的现象与单词tcl在文档中是否出现的现象之间的相关性的强弱,求出特征词的分数。文档是否已被分类到类目中的现象是文档是否被包含在文档集合Dcl中的现象。
但是,式(6)中的Dl是用语言l记述的文档的整体集合(一般为 多数情况为)。此外,也有单词与类目之间存在负的相关性的情况,因此,为了将该相关性除去,在df(tcl,Dcl)/df(tcl,Dl)≦|Dc|/|Dl|的情况下,类目特征词抽取部10如式(6)的但书所示那样将分数设为0。
最后,类目特征词抽取部10将按照分数从大到小的顺序选择规定个数(例如10个)的单词tcl而得的结果,作为类目c的语言l的特征词(S1804)。
图19是表示图3所示的类目特征词变换部11的处理的流程的一例的流程图。
根据图18所说明的处理,例如从被分类有仅中文的文档的类目,只能获得中文的特征词。因此,对于例如以日语为母语的用户来讲,很难理解特征词。于是,多语言文档分类装置通过图19所示的处理,将用某个语言记述的特征词变换为用其他语言记述的特征词。
在图19所示的处理中,首先,类目特征词变换部11使用图18所示的处理结果,求出类目c的语言k的特征词集合Tck(S1901)。该类目特征词变换部11的处理的目的在于获得与该特征词集合Tck对应的其他语言l的单词。
与S1901同样,类目特征词变换部11使用图18所示的处理结果,求出类目c的语言l的特征词集合Tcl(S1902)。该S1902的处理不是必要的。在类目c中未分类有语言l的文档的情况下,类目特征词变换部11根本无法得到语言l的特征词,因此,特征词集合Tcl为空集合。如图18中的S1803所说明那样,这些特征词集合Tck与特征词集合Tcl的各特征词被赋予分数。
接下来,通过类目特征词变换部11和图1~图5所示的单词间对应关系抽取部6(图11的处理),取得语言k与语言l的单词的对应关系(S1903)。类目特征词变换部11将作为该图19所示的处理结果的、类目c的语言k的特征词与语言l的特征词的组的集合设为Pckl,将其初始值设为空集合(S1904)。
然后,类目特征词变换部11针对特征词集合Tck的各特征词tck反复(S1905)执行以下的S1906至S1910的处理。
首先,类目特征词变换部11使用S1903所取得的单词间的对应关系,求出与特征词tck对应的语言l的单词tcl。一般来讲,tcl可能为0个以上。因此,类目特征词变换部11包含0个即不存在的情况在内地将特征词tck和特征词tcl的组设为pckl(S1906)。
类目特征词变换部11求出pckl的分数。作为tck的特征词的分数通过S1901的处理来求出。
作为tcl的特征词的分数在S1902所得到的特征词集合Tcl中包含有特征词tcl的情况下被求出。但是,未被包含在特征词集合Tcl中的特征词tcl的分数为0。考虑以上的情况,类目特征词变换部11将pckl的分数设为特征词tck的分数与特征词tcl的分数之中的最大值(S1907)。
接下来,类目特征词变换部11调查在特征词的组的集合Pckl当中已经制作的某个组qckl与这次制作出的组pckl之间,语言k或语言l的单词是否有重复(S1908)。
在存在这些单词有重复的qckl的情况下(S1908为是),类目特征词变换部11将pckl统合到qckl中。例如如果pckl=({tck1},{tcl1,tcl2},qckl=({tck2},{tcl2,tcl3}),则pckl与qckl之间语言l的特征词tcl2是重复的。因此,类目特征词变换部11对它们进行统合来设为qckl=({tck1,tck2},{tcl1,tcl2,tcl3})。该统合后的qckl的分数成为统合前的qckl和pckl的最大值(即特征词tck1,tck2,tcl1,tcl2,tcl3的分数的最大值)(S1909)。
另一方面,如果与pckl之间不存在单词有重复的qckl(S1908为否),则类目特征词变换部11将pckl追加在Pckl中(S1910)。然后,在S1905的反复处理后,类目特征词变换部11将Pckl中的特征词的组按照分数从大到小的顺序输出(S1911)。
图20是以表形式来表示由图3所示的类目特征词抽取部10(对应于图18的处理)抽取、并由类目特征词变换部11(对应于图19的处理)变换后的特征词的例子的图。
如图20所示,例如行2001所示,英语的特征词“face”被变换为日语的特征词“顔”,同样,如行2002所示,英语的特征词“detect”被变换为日语的特征词“検出”。此外,例如行2003所示,英语的“area”和“region”这2个特征词与日语的“領域”这1个特征词建立了对应。相反,如行2004所示,英语的“exposure”这1个特征词与日语的“露光”和“露出”这2个特征词建立了对应。通过使用这样进行了变换的特征词,用户能够用各种语言来容易地理解被分类到类目中的文档的内容。例如,通过向用户提示图20所示那样的英语与日语的特征词的对应关系,用户能够简单地知晓用不习惯的语言记述的单词的意思。
根据这样的结构,例如从较多地分类有中文的文档的类目中,首先,作为该类目的特征词,自动地抽取中文的特征词。接下来,将该特征词自动地变换为日语或英语的特征词。用户能够利用用对自己而言容易理解的语言记述的特征词,因此能够容易地掌握类目的内容。
接下来,对图4所示的实施方式中的处理进行说明。图21是表示图4所示的分类规则变换部13的处理的流程的一例的流程图。
如图7的C所说明的那样,多语言文档分类装置通过使用分类规则,能够根据例如在文档的“摘要”中包含有“露光”这一单词的明示条件来对文档进行分类。但是,例如该“露光”这一单词仅能适用于对日语的文档进行分类的目的。也就是说,该单词并不适用于对英语或中文的文档进行分类的目的。于是,通过图21所示的处理,分类规则变换部13将用某个语言记述的分类规则变换为用其他语言记述的分类规则。
首先,分类规则变换部13从图1~图6A、图6B、图6C所示的单词间对应关系抽取部6(对应于图11的处理)取得语言k与语言l的单词间的对应关系(S2101)。
接下来,分类规则变换部13针对成为变换对象的分类规则的、语言k的要素(图7C的例子中为日语的要素“contains(摘要,“露光”)”)反复(S2102)执行以下的S2103至S2106的处理。
首先,分类规则变换部13使用S2101中取得的单词间的对应关系,判断是否存在与分类规则的要素rk中的单词tk对应的语言l的单词tl(S2103)。
如果存在单词tl(S2103为是),则分类规则变换部13制作将rk的单词tk置换成单词tl后的要素rl(S2104)。在图7C的例子中,单词tk为“露光”,单词tl为“exposure”,分类规则的置换前的要素rk为“contains(摘要,“露光”)”,置换后的要素rl为“contains(摘要,“exposure”)”。然后,分类规则变换部13将分类规则的要素rk的部分置换成(rk OR rl)这样的逻辑和。
图22A、图22B是表示这样变换后的类目的分类规则的例子的图。S2104的处理的结果,图7C的行712所示的分类规则被变换为图22A的行2201所示的分类规则。
在图21的S2105以后的处理中,分类规则变换部13对分类规则的语言k的要素进行扩展。该处理不是必须的。分类规则变换部13使用S2101中取得的单词间的对应关系,判断是否存在与语言l的单词tl对应的语言k的单词tk’(与tk不同的单词)(S2105)。
如果存在单词tk’(S2105为是),则分类规则变换部13制作将S2104中制作出的要素rl的单词tl置换为单词tk’后的要素rk’(S2106)。在图7C的行712所示的例子中,单词tl为“exposure”,单词tk’为“露出”,分类规则的要素rk’为“contains(摘要,“露出”)”。
然后,分类规则变换部13将分类规则的rl的部分置换为(rl OR rk’)。该情况下,作为其结果,原来的分类规则的要素rk被置换为(rk OR rl OR rk’)。
在图22B的行2202所示的分类规则中,示出了最终得到的分类规则。通过这样的分类规则,不仅日语的文档,英语的文档也能够进行分类。进而,针对日语的文档,与原来的分类规则相比,更加能够无遗漏地对文档进行分类。
根据这样的结构,多语言文档分类装置例如制作了用于在某个类目中分类包含日语的“暗号”这一单词的文档的分类规则之后,将该分类规则变换为英语或中文,由此,能够将包含有例如英语的“encrypt”或中文的“加密”等、日语的“暗号”的对译词或关联词在内的文档分类到该类目中。
接下来,说明图5所示的实施方式中的处理。图23是表示图5所示的辞典变换部16的处理的流程的一例的流程图。
如图9和图13的S1303等所说明的那样,通过使用重要词、不需要词、同义词等辞典词,能够根据内容将文档恰当地分类。但是,在对语言不同的文档进行分类的情况下,存在制作辞典的作业需要花费劳力的问题。于是,在图23的处理中,多语言文档分类装置将用某个语言记述的辞典词自动地变换为用其他语言记述的辞典词,由此能够简单地制作用各种语言记述的辞典。
在图23所示的处理中,首先,辞典变换部16从图1~图5所示的单词间对应关系抽取部6(对应于图11的处理)取得语言k与语言l的单词间的对应关系(S2301)。接下来,辞典变换部16针对作为变换对象的语言k的辞典词tk反复(S2302)执行以下的S2303至S2306的处理。
首先,辞典变换部16使用S2301中取得的单词间的对应关系,判断是否存在与辞典词tk对应的语言l的单词tl(S2303)。如果存在单词tl(S2303为是),则辞典变换部16将该单词tl设为辞典词。辞典变换部16将该辞典词的种类(重要词、不需要词、同义词等)设为与辞典词tk相同的种类。进而,如果与1个辞典词tk对应的单词tl存在有多个,则辞典变换部16将这些单词作为同义词(S2304)。
图24A是表示将图9所示的日语的辞典变换为英语的辞典后的结果的例子的图。
在图24A的行2401中,示出了图9的行901的日语的重要词“フラッシュ”被变换为英语的重要词“flash”。
在图24A的行2402中,示出了图9的行902的日语的重要词“露光”被变换为英语的重要词“exposure”。
在图24A的行2403中,示出了图9的行904的日语的不需要词“装置”被变换为英语的2个单词“apparatus”和“device”。这些词如图24A的行2403所示,为不需要词及同义词。
如图24A的行2404所示,图9的行905的日语的同义词“フラッシュ”和“ストロボ”各自的单词(表达)被变换为英语的“flash”和“strobe”。因此,这些单词在英语中也是图24A的行2404所示的同义词。
另外,在对同义词进行变换后的结果而仅能得到1个以下的单词(变换目标的语言中不存在对应的单词的情况,或者被变换为同一单词的情况)的情况下,作为同义词的意义不再存在,因此,在变换目标的辞典中,辞典变换部16也可以删除该同义词。
接下来,辞典变换部16进行对作为变换源的语言k的辞典的同义词进行扩展的处理。该处理不是必须的。辞典变换部16使用S2301中取得的单词间的对应关系,判断是否存在与语言l的单词tl对应的语言k的单词tk’(不同于tk的单词)(S2305)。如果存在有单词tk’(S2305为是),则辞典变换部16将语言k的原本的单词tk和单词tk’设为同义词(S2306)。
例如对于图9的行902的重要词“露光”,对应有图24A的行2402的英语的重要词“exposure”。但是,该“exposure”如图12的行1202所示,还对应于日语的单词“露出”。因此,作为结果,在日语的辞典中,如图24B的行2405所示,“露光”和“露出”成为重要词且同义词。这样,多语言文档分类装置不仅能够变换例如日语的辞典来自动地制作英语的辞典,还能够对日语的辞典也追加同义词。
根据这样的结构,多语言文档分类装置能够根据例如以对日语的文档恰当地进行分类的目的制作出的辞典,高效地制作适于对英语或中文的文档进行分类的辞典。
在这些各实施方式中,仅使用作为分类对象的文档集合本身所包含的文档的、用不同语言记述的文档间的对应关系,就能够实现以上那样的功能。由此,不需要预先准备对译辞典等。进而,在使用了现有的通用的对译辞典的情况下,需要根据分类对象的文档选择恰当的对译词。但是,在本实施方式中,使用从分类对象的文档本身抽取到的单词的对应关系。由此,多语言文档分类装置不需要选择对译词。此外,多语言文档分类装置也不会使用不恰当的对译词。
作为其结果,多语言文档分类装置能够高精度地实现自动地抽取类目间的跨语言的对应关系的处理、跨语言地对文档进行自动分类的处理。此外,在使用通用的对译辞典用以往的方法对所述的分类规则或辞典词进行了变换的情况下,很少会出现制作出不恰当的分类规则或辞典词的情况。在本实施方式中,不存在这样的问题,多语言文档分类装置能够获得用于对分类对象的文档恰当地进行分类的分类规则或辞典词。
以上说明了发明的几个实施方式,这些实施方式指示作为例子而提示,不意图限定发明的范围。这些新的实施方式能够通过其他各种方式来实施,能够在不脱离发明的宗旨的范围内进行各种省略、置换、变更。这些实施方式及其变形被包含在发明的范围及宗旨内,并被包含在权利要求书中记载的发明及其等同的范围内。
附图标记的说明
1……文档存储部,2……单词抽取部,3……类目存储部,4……类目操作部,5……文档间对应关系存储部,6……单词间对应关系抽取部,7……类目生成部,8……类目间对应关系抽取部,9……事例基准文档分类部,10……类目特征词抽取部,11……类目特征词变换部,12……规则基准文档分类部,13……分类规则变换部,14……辞典存储部,15……辞典设定部,16……辞典变换部。

Claims (8)

1.一种文档分类装置,其特征在于,
具备:
文档存储部(1),存储语言不同的多个文档;
文档间对应关系存储部(5),存储所述文档存储部(1)所存储的、语言不同的文档间的对应关系;
类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目;
单词抽取部(2),从所述文档存储部(1)所存储的文档抽取单词;
单词间对应关系抽取部(6),使用所述文档间对应关系存储部(5)所存储的对应关系,基于由所述单词抽取部(2)抽取到的单词在具有所述对应关系的文档间同现地出现的频率,抽取该单词间的对应关系;
类目生成部(7),基于所述文档存储部(1)所存储的语言相同的文档间的、由所述单词抽取部(2)抽取到的单词出现的频率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成所述类目;
类目间对应关系抽取部(8),基于在被分类到由所述类目生成部(7)生成的每个语言的类目中的文档中单词出现的频率、以及由所述单词间对应关系抽取部(6)抽取到的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词、与在被分类到其他类目中的文档中出现的频率较多的之间,所述单词间的对应关系存在得越多则视为该类目间的相似度越高,由此,抽取将语言不同的文档进行了分类的类目间的对应关系。
2.如权利要求1所述的文档分类装置,其特征在于,
还具备:
类目特征词抽取部(10),基于针对作为被分类到所述类目存储部(3)所存储的类目中的文档的、用1个或者多个语言记述的1个或者多个文档的、由所述单词抽取部(2)抽取到的单词出现的频率,抽取该类目的特征词;以及
类目特征词变换部(11),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将作为由所述类目特征词抽取部(10)抽取到的特征词的用第一语言记述的特征词,变换为用第二语言记述的特征词。
3.如权利要求1所述的文档分类装置,其特征在于,
还具备:
规则基准文档分类部(12),以所述类目存储部(3)所存储的1个或者多个类目为对象,基于以将由所述单词抽取部(2)抽取到的单词当中的1个或者多个单词出现的文档分类到该类目中的方式进行规定的分类规则,决定用于对所述文档存储部(1)所存储的文档进行分类的类目;以及
分类规则变换部(13),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将所述规则基准文档分类部(12)所使用的各类目的分类规则中的用第一语言记述的单词变换为用第二语言记述的单词,由此对所述分类规则进行变换。
4.如权利要求1所述的文档分类装置,其特征在于,
具备:
辞典存储部(14),存储用于规定所述类目生成部(7)对单词的使用方法的辞典;
辞典设定部(15),对所述辞典,设定重视的重要词、忽略的不需要词、视为相同的同义词的某个或者多个,作为辞典词;以及
辞典变换部(16),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将作为在所述辞典中设定的辞典词的用某个语言记述的辞典词变换为用其他语言记述的辞典词。
5.如权利要求2所述的文档分类装置,其特征在于,
具备:
辞典存储部(14),存储用于规定所述类目特征词抽取部(10)对单词的使用方法的辞典;
辞典设定部(15),对所述辞典,设定在所述文档的分类中重视的重要词、在所述文档的分类中忽略的不需要词、在所述文档的分类中视为相同的同义词的某个或者多个,作为辞典词;以及
辞典变换部(16),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将所述辞典中设定的用某个语言记述的辞典词变换为用其他语言记述的辞典词。
6.一种文档分类装置,其特征在于,
具备:
文档存储部(1),存储语言不同的多个文档;
文档间对应关系存储部(5),存储所述文档存储部(1)所存储的、语言不同的文档间的对应关系;
类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目;
单词抽取部(2),从所述文档存储部(1)所存储的文档抽取单词;
单词间对应关系抽取部(6),使用所述文档间对应关系存储部(5)所存储的对应关系,基于由所述单词抽取部(2)抽取到的单词在具有所述对应关系的文档间同现地出现的频率,抽取该单词间的对应关系;以及
事例基准文档分类部(9),基于作为已经被分类到所述类目存储部(3)所存储的类目中的文档的、1个或者多个已分类文档,对还未被分类到该类目中的未分类文档决定是否应该分类到该类目中;
所述事例基准文档分类部(9),
基于针对各类目的已分类文档和未分类文档各自的、由所述单词抽取部(2)抽取到的单词出现的频率和由所述单词间对应关系抽取部(6)抽取到的对应关系,在某个类目的已分类文档中出现的频率较多的单词、与在某个未分类文档中出现的频率较多的单词之间的相似度高到满足规定条件的情况下,决定是否将用其他语言来记述的所述某个未分类文档分类到该类目中,该其他语言不同于对所述类目的已分类文档进行记述的语言。
7.如权利要求6所述的文档分类装置,其特征在于,
具备:
辞典存储部(14),存储用于规定所述事例基准文档分类部(9)对单词的使用方法的辞典;
辞典设定部(15),对所述辞典,设定在所述文档的分类中重视的重要词、在所述文档的分类中忽略的不需要词、在所述文档的分类中视为相同的同义词的某个或者多个,作为辞典词;以及
辞典变换部(16),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将所述辞典中设定的用某个语言记述的辞典词变换为用其他语言记述的辞典词。
8.一种文档分类方法,应用在文档分类装置中,该文档分类装置具有:文档存储部(1),存储语言不同的多个文档;文档间对应关系存储部(5),存储所述文档存储部(1)所存储的、语言不同的文档间的对应关系;以及类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目,其特征在于,
在该文档分类方法中,
从所述文档存储部(1)所存储的文档抽取单词,
使用所述文档间对应关系存储部(5)所存储的对应关系,基于所述抽取到的单词在具有所述对应关系的文档间同现地出现的频率,抽取该单词间的对应关系,
基于所述文档存储部(1)所存储的语言相同的文档间的、所述抽取到的单词出现的频率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成所述类目,
基于在被分类到所述生成的每个语言的类目中的文档中单词出现的频率、以及所述抽取到的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词与在被分类到其他类目中的文档中出现的频率较多的单词之间,所述单词间的对应关系存在得越多则视为该类目间的相似度越高,由此,抽取将所述语言不同的文档进行了分类的类目间的对应关系。
CN201380042988.1A 2012-08-22 2013-08-22 文档分类装置及文档分类方法 Active CN104584005B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012183534A JP5526199B2 (ja) 2012-08-22 2012-08-22 文書分類装置および文書分類処理プログラム
JP2012-183534 2012-08-22
PCT/JP2013/072481 WO2014030721A1 (ja) 2012-08-22 2013-08-22 文書分類装置および文書分類方法

Publications (2)

Publication Number Publication Date
CN104584005A CN104584005A (zh) 2015-04-29
CN104584005B true CN104584005B (zh) 2018-01-05

Family

ID=50150025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380042988.1A Active CN104584005B (zh) 2012-08-22 2013-08-22 文档分类装置及文档分类方法

Country Status (4)

Country Link
US (1) US20150161144A1 (zh)
JP (1) JP5526199B2 (zh)
CN (1) CN104584005B (zh)
WO (1) WO2014030721A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858330B2 (en) * 2013-10-21 2018-01-02 Agile Legal Technology Content categorization system
US9977830B2 (en) * 2014-01-31 2018-05-22 Verint Systems Ltd. Call summary
JP6217468B2 (ja) * 2014-03-10 2017-10-25 富士ゼロックス株式会社 多言語文書分類プログラム及び情報処理装置
CN105512131A (zh) * 2014-09-25 2016-04-20 中国科学技术信息研究所 基于类目相似度计算的分类法类目映射的方法和装置
CN107533652B (zh) * 2015-05-11 2021-01-12 株式会社东芝 识别装置、识别方法及记录介质
JP5933863B1 (ja) * 2015-05-22 2016-06-15 株式会社Ubic データ分析システム、制御方法、制御プログラム、および記録媒体
JP6575327B2 (ja) * 2015-11-27 2019-09-18 富士通株式会社 工数推定プログラム、工数推定方法及び工数推定装置
US10055489B2 (en) * 2016-02-08 2018-08-21 Ebay Inc. System and method for content-based media analysis
US10552523B2 (en) * 2016-10-14 2020-02-04 Sap Se Automatically identifying synonyms within a token-based database management system
US10445431B1 (en) * 2016-12-22 2019-10-15 Shutterstock, Inc. Language translation of text input using an embedded set for images and for multilanguage text strings
US10169331B2 (en) * 2017-01-29 2019-01-01 International Business Machines Corporation Text mining for automatically determining semantic relatedness
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
JP6847812B2 (ja) * 2017-10-25 2021-03-24 株式会社東芝 文書理解支援装置、文書理解支援方法、およびプログラム
CN108153728B (zh) * 2017-12-22 2021-05-25 新奥(中国)燃气投资有限公司 一种关键词确定方法及装置
WO2019183543A1 (en) * 2018-03-23 2019-09-26 John Rankin System and method for identifying a speaker's community of origin from a sound sample
US10585922B2 (en) * 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words
WO2020014354A1 (en) 2018-07-10 2020-01-16 John Rankin System and method for indexing sound fragments containing speech
CN109063184B (zh) * 2018-08-24 2020-09-01 广东外语外贸大学 多语言新闻文本聚类方法、存储介质及终端设备
US11087098B2 (en) * 2018-09-18 2021-08-10 Sap Se Computer systems for classifying multilingual text
CN109522554B (zh) * 2018-11-06 2022-12-02 中国人民解放军战略支援部队信息工程大学 一种低资源文档分类方法及分类系统
CN110209812B (zh) * 2019-05-07 2022-04-22 北京地平线机器人技术研发有限公司 文本分类方法和装置
US11699037B2 (en) 2020-03-09 2023-07-11 Rankin Labs, Llc Systems and methods for morpheme reflective engagement response for revision and transmission of a recording to a target individual
JP7445891B2 (ja) 2020-06-12 2024-03-08 パナソニックIpマネジメント株式会社 文書分類方法、文書分類装置及びプログラム
US20230029058A1 (en) * 2021-07-26 2023-01-26 Microsoft Technology Licensing, Llc Computing system for news aggregation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103478A (ja) * 1996-06-14 1998-01-06 Nippon Telegr & Teleph Corp <Ntt> 概念の類似性判別方法
JP2010287149A (ja) * 2009-06-15 2010-12-24 Toshiba Corp 対訳文書校正装置
CN102411636A (zh) * 2011-12-30 2012-04-11 北京理工大学 一种针对主题漂移问题的跨语言文本分类方法
CN102567529A (zh) * 2011-12-30 2012-07-11 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI111762B (fi) * 2000-12-28 2003-09-15 Fonecta Ltd Menetelmä tietojenkyselynpalvelun aikaansaamiseksi sekä tietojenkyselypalvelujärjestelmä
WO2002054265A1 (en) * 2001-01-02 2002-07-11 Julius Cherny Document storage, retrieval, and search systems and methods
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
JP3856778B2 (ja) * 2003-09-29 2006-12-13 株式会社日立製作所 複数言語を対象とした文書分類装置及び文書分類方法
CN1629837A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览及分类查询的方法、装置及其系统
JP4332129B2 (ja) * 2005-04-20 2009-09-16 富士通株式会社 文書分類プログラム、文書分類方法および文書分類装置
JP4640593B2 (ja) * 2005-07-14 2011-03-02 日本電気株式会社 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
ES2727567T3 (es) * 2007-12-27 2019-10-17 Psholix Ag Procedimiento y dispositivo para la generación de imágenes multivista en tiempo real
US8326785B2 (en) * 2008-09-30 2012-12-04 Microsoft Corporation Joint ranking model for multilingual web search
US8762300B2 (en) * 2011-10-18 2014-06-24 Ming Chuan University Method and system for document classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103478A (ja) * 1996-06-14 1998-01-06 Nippon Telegr & Teleph Corp <Ntt> 概念の類似性判別方法
JP2010287149A (ja) * 2009-06-15 2010-12-24 Toshiba Corp 対訳文書校正装置
CN102411636A (zh) * 2011-12-30 2012-04-11 北京理工大学 一种针对主题漂移问题的跨语言文本分类方法
CN102567529A (zh) * 2011-12-30 2012-07-11 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A refinement framework for cross language text categorization;Ke Wu等;《Springer》;20080118;全文 *
Using KCCA for Japanese-English cross-language information retrieval and document classification;Yaoyong Li等;《Journal or Intellegent Information Systems》;20060930;第27卷(第2期);全文 *
基于潜在语义对偶空间的跨语言文本分类研究;熊超等;《广西师范大学学报(自然科学版)》;20100621;全文 *
基于跨语言文本分类的跨语言特征提取方法研究;高影繁等;《情报学报》;20120115;第30卷(第12期);全文 *

Also Published As

Publication number Publication date
WO2014030721A1 (ja) 2014-02-27
JP5526199B2 (ja) 2014-06-18
JP2014041481A (ja) 2014-03-06
US20150161144A1 (en) 2015-06-11
CN104584005A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104584005B (zh) 文档分类装置及文档分类方法
Labusch et al. BERT for named entity recognition in contemporary and historical German
Alexander et al. Task-driven comparison of topic models
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
KR101713558B1 (ko) 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법
Murray et al. Interpretation and transformation for abstracting conversations
JP2007041721A (ja) 情報分類方法およびプログラム、装置および記録媒体
Brugman et al. Nederlab: Towards a single portal and research environment for diachronic Dutch text corpora
Pouromid et al. ParsBERT post-training for sentiment analysis of tweets concerning stock market
Coelho et al. Text Classification in the Brazilian Legal Domain.
Csurka et al. Medical image modality classification and retrieval
CN108595593B (zh) 基于主题模型的会议研究热点与发展趋势信息分析方法
Yu et al. A semi-supervised learning approach for microblog sentiment classification
Polo et al. Predicting legal proceedings status: approaches based on sequential text data
Shah et al. Generating related work
Ding et al. Hierarchical clustering for micro-learning units based on discovering cluster center by LDA
Al-Hagree et al. Arabic sentiment analysis on mobile applications using Levenshtein distance algorithm and naive Bayes
Kelodjoue et al. Performance of two french bert models for french language on verbatim transcripts and online posts
Pereira et al. A multimedia information system to support the discourse analysis of video recordings of television programs
Nasierding et al. Image to text translation by multi-label classification
Nikitinsky et al. An information retrieval system for technology analysis and forecasting
Kumari et al. Sintm-lda and rake based topic modelling for sinhala language
Shamma et al. Information extraction from arabic law documents
Kim et al. Scientific table type classification in digital library
Chen et al. Research and Implementation of Automatic Indexing Method of PDF for Digital Publishing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant