CN1466083A - 关键词提取装置和信息检索装置 - Google Patents
关键词提取装置和信息检索装置 Download PDFInfo
- Publication number
- CN1466083A CN1466083A CNA021598231A CN02159823A CN1466083A CN 1466083 A CN1466083 A CN 1466083A CN A021598231 A CNA021598231 A CN A021598231A CN 02159823 A CN02159823 A CN 02159823A CN 1466083 A CN1466083 A CN 1466083A
- Authority
- CN
- China
- Prior art keywords
- file
- character string
- keyword
- word
- calculating unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明提供一种关键词提取装置,包括:后缀文件形成部(22),接收文件组,由文件组形成后述的后缀文件;后缀文件存储部(24),存储后缀文件;分隔部(28),接收文件组中包含的任意的文件或与文件组相同领域的文件,以‘、’和‘。’等文章的分隔处进行文件分割;评分计算部(26),根据后缀文件和分隔部(28)供给的文章,对文章进行适当分隔,进行后述的出现频度α、出现集中度β和加权等计算;运算结果存储部(30),存储运算结果;文件分割部(32),根据运算结果,将文件分割为关键词的侯选;以及压缩部(34),对侯选关键词进行压缩。因而,不需要字典而从文件中提取关键词。
Description
技术领域
本发明涉及关键词提取装置和信息检索装置,特别涉及不需要字典可从文件组中提取关键词的关键词提取装置和信息检索装置。
背景技术
在整理最新的技术信息速报和新闻等时,为了检索,进行可以鉴定记事内容的关键词的赋予。如果将赋予关键词的作业自动化,则不赋予关键词的文件的操作也变得容易。至今研讨的关键词自动提取采用以下方法:使用字典来进行词素解析,然后,根据词类信息和频度信息来识别关键词。
但是,作为每天产生新单词的因特网时代的信息处理,使用字典的方法存在问题。作为其理由,可列举出处理自动化因需要从必需的最新文章中将关键词不断登录在字典上而生产性差,以及没有对于字典上未登录的所有未知用语的通用性。
此外,在现有的关键词提取方法中,有时未正确地分割为单词,因此,存在单词前后的一部分字符被分割到断开的部分字符串中的问题。此外,还存在助词和助动词包含在单词的前后而被分割的问题。
发明内容
本发明是用于解决上述课题的发明,其目的在于提供一种关键词提取装置,可不需要字典而从文件中提取关键词。
本发明的另一目的在于提供一种信息检索装置,可不需要字典而从文件组中提取与某个文件相关联的文件。
根据本发明的一个方面,关键词提取装置包括:出现频度计算部件,求出文件组中的各文件内包含的部分字符串在文件组中的出现频度;出现集中度计算部件,求出部分字符串在文件组中的出现集中度;以及第1关键词提取部件,被连接到出现频度计算部件和出现集中度计算部件,根据出现频度和出现集中度,从输入的文件中提取关键词。
根据部分字符串的出现频度和出现集中度,来提取关键词。因此,可以不需要字典而从文件中提取关键词。
最好是第1关键词提取部件包括:文件分割部件,将输入的文件分割为部分字符串;单词接近度计算部件,被连接到文件分割部件、出现频度计算部件和出现集中度计算部件,根据出现频度和出现集中度来计算部分字符串的单词接近度;以及第2关键词提取部件,被连接到单词接近度计算部件,根据单词接近度的合计值,从文件中提取关键词。
而且,最好是单词接近度计算部件包括以下部件,该部件被连接到文件分割部件、出现频度计算部件和出现集中度计算部件,根据出现频度、出现集中度、部分字符串的长度和文件的平均长度,来计算部分字符串的单词接近度。
如果文件的平均长度变小,作为出现集中度有接近0的倾向。因此,通过以文件的平均长度来改变单词接近度的计算方法,即使出现频度变小,也可以计算合适的单词接近度。
而且,最好是关键词提取装置还包括压缩部件,该压缩部件被被连接到第2关键词提取部件、出现频度计算部件和出现集中度计算部件,根据出现频度、出现集中度和部分字符串的长度来压缩由第2关键词提取部件提取的关键词。
最好是关键词提取装置还包括分隔部件,以句号和逗号来分隔输入的文件,并供给文件分割部件。
最好是文件分割部件包括以下部件,该部件将输入的文件分割为部分字符串,使得开头字符不从预定的字符开始。
最好是文件分割部件包括以下部件,该部件将输入的文件分割为部分字符串,使得部分字符串的长度不在预定的字符数以上。
最好是文件分割部件包括:妥当性计算部件,被连接到单词接近度计算部件,从单词接近度计算部件算出的文件的规定位置开始的第1部分字符串的第1单词接近度起,根据将第1部分字符串延长1字符所得的第2部分字符串的向第2单词接近度的变化,来计算将规定位置作为单词分隔处的妥当性尺度;分隔处提取部件,被连接到妥当性计算部件,对从规定位置的前后方向将第1部分字符串延长1字符时所得的妥当性尺度进行合计,将妥当性尺度的合计为阈值以上的规定处作为单词分隔处来提取;以及部分字符串切出部件,被连接到分隔处提取部件,切出将提取的单词分隔处作为单词的开始点和终点的部分字符串。
在对字符串进行分割时,将单词前后的一部分字符分割成分隔的部分字符串,并且将助词和助动词包含在单词前后来分割的概率小。
最好是关键词提取装置还包括出现频度计算部件,被连接到出现频度计算部件,根据出现频度计算部件算出的第1部分字符串的第1出现频度和第2部分字符串的第2出现频度之比,来计算第1部分字符串的出现概率;妥当性计算部件除了根据从第1单词接近度向第2单词接近度的变化以外,还根据出现概率来计算将规定位置作为单词分隔处的妥当性尺度。
在对字符串进行分割时,将单词前后的一部分字符分割成分隔的部分字符串,并且将助词和助动词包含在单词前后来分割的概率小。
最好是部分字符串切出部件对于以提取的单词分隔处作为单词的开始点和终点的部分字符串,将片假名、英文字母数字、以及汉字构成的字符串前后附带的1字符的字符判断为助词,将除去了助词的部分字符串切出。
在对字符串进行分割时,将助词和助动词包含在单词前后来分割的概率小。
最好是第2关键词提取部件被连接到出现频度计算部件,根据单词接近度的合计值,依赖于出现频度计算部件算出的出现频度,从文件中提取关键词。
由此,可提高分割成单词后的关键词的判定精度。
根据本发明的另一方面,信息检索装置包括:出现频度计算部件,求出文件组中的各文件内包含的部分字符串在文件组中的出现频度;出现集中度计算部件,求出部分字符串在文件组中的出现集中度;关键词提取部件,被连接到出现频度计算部件和出现集中度计算部件,根据出现频度和出现集中度,从输入的文件中提取关键词;一致度计算部件,被连接到关键词提取部件,对于文件组中的各文件,计算与关键词提取部件提取的各关键词的一致度;相似度计算部件,被连接到一致度计算部件,根据一致度,对于文件组中的各文件,计算与输入的文件的相似度;以及被连接到相似度计算部件,根据相似度,从文件组中提取与输入文件组相关联的文件的部件。
由此,从输入的文件中不使用字典来提取关键词,并提取与该关键词相关联的文件。因此,可不需要字典来提取与输入的文件相关联的文件。
附图说明
图1是表示本发明实施例1的关键词提取装置的结构方框图。
图2是表示‘关于机器人’这样的词的部分字符串x和与其对应的df、df2、α、β的值的图。
图3是用于估计字符串的单词接近度(加权)的处理流程图。
图4是表示使用字符串的加权来分割文件的例子的图。
图5是表示通过词素解析来分割文件的例子的图。
图6是用于提取关键词的处理流程图。
图7是后缀文件形成部22进行的处理流程图。
图8是说明后缀文件的图。
图9是分隔部28执行的处理流程图。
图10是评分计算部26执行的处理流程图。
图11是说明评分计算部26中的用于加权计算的排列vaule、table和from的图。
图12是表示将对字符串‘有关2000年问题的对应策略’进行分割时的排列from、value和table的值。
图13是表示一例通过加权来对各单词进行分隔的图。
图14是求字符串a出现的文件数df和字符串a出现两次以上的文件数df2的处理流程图。
图15是求所有文件中字符串a出现的次数tf的处理流程图。
图16是实现关键词提取装置的计算机的外观图。
图17是表示图16所示的计算机硬件结构的图。
图18是根据检索文章来检索文件数据库,并选出相似度高的文件来输出的处理流程图。
图19是收集关键词管理表中记录的各关键词和文件数据库内的各文件的一致信息,并将该信息记录在一致信息管理表中的处理流程图。
图20是表示一致信息管理表的结构图。
图21是使用从一致信息管理表中取出的表,通过一致的字符串的加权相加来求输入文章X和文件Y的相似度的处理流程图。
图22是表示关键词的出现集中度β的分布图。
具体实施方式
[实施例1]
参照图1,本发明实施例的关键词提取装置包括:后缀文件形成部22,接收文件组,由文件组形成后述的后缀文件;后缀文件存储部24,被连接到后缀文件形成部22,存储由后缀文件形成部22形成的后缀文件;分隔部28,接收文件组中包含的任意文件或与文件组相同领域的文件,以‘、’或‘。’等文章分隔处来进行文件分割;评分计算部26,被连接到后缀文件存储部24和分隔部28,根据后缀文件存储部24中存储的后缀文件和由分隔28供给的文章,对文章进行适当分隔,进行后述的出现频度α、出现集中度β和加权等计算;运算结果存储部30,被连接到评分计算部26,存储评分计算部26的运算结果;文件分割部32,被连接到运算结果存储部30,根据运算结果存储部30中存储的运算结果,将文件分割为侯选关键词;以及压缩部34,被连接到文件分割部32,对侯选关键词进行压缩,并提取关键词。
[本发明的概要]
本发明的特征在于除了字符串的出现频度以外,还使用表示出现集中度的统计量。在本发明的关键词提取中,需要对所有的部分字符串求出现集中度,所以如果单纯进行求取,则计算量庞大。发明人已经确立使用用于求出多个文件内字符串的出现集中度的‘后缀文件’技术,并利用该技术。
[关键词提取的原理]
出现集中度作为适配(adaptation)是公知的统计量,是‘某个单词出现在一个文件中这样的条件下,相同的单词再次出现在该文件内的概率:P(出现两次|出现一次)’的估计值。为了估计该概率,与对象的字符串x相关联,将‘包含该字符串x的文件数:df(x)’和‘包含该字符串x两次以上的文件数:df2(x)’一一列举。然后,根据考虑到贝叶斯规则的下式(1)来估计上述概率。这里,N是所有文件数。
该df(x)、df2(x)的自变量x可取所有的部分字符串。在使用简单的方法,处理大规模的文本时,存储量或计算量的某一个实际上没有那样大。
因此,作为后述的后缀文件,利用知道的数据构造,来进行部分字符串的提取。后缀文件需要文本的5倍存储空间,但所有的部分字符串的位置可由log(n)(n:文本的大小)级的计算量来指定。
有关后缀文件的形成方法和利用方法,在‘M.Yamamoto and K.W.Church,Using Suffix Arrays to Compute Term Frequency and Document Frequency forAll Substrings in a Corpus,In proceeding of 6th Workshop on Very LargeCorpora,Ed.Eugene Charniak,Motreal,pp28-37,1998’中公开了其细节。
如果使用后缀文件,则可以高速求出某个字符串出现在文件数据库内的次数。后缀文件通过将所有的文件中产生的部分字符串以字符代码顺序进行排列,附加通用号码(后缀)来实现。字符串出现在文件数据库中的次数tf通过计算在后缀文件中有几个与该字符串一致的字符串来求出。
具体地说,首先,分别通过二分探索方法来求与某个字符串一致的字符串出现的后缀的最小值min和最大值max。如果为一致的字符串,则该字符串出现在文件数据库的次数为0。如果求出后缀的最小值min和最大值max,则该字符串出现的次数tf以tf=max-min+1来求出。
文件数据库的文件通过文件号来相互区分,在后缀文件中登录的部分字符串中附加该文件号。由此,可以高效率地检索包含某个部分字符串的文件。此外,包含某个字符串的文件数df通过将重复的文件号码数一一列举,从tf中减去该数来计算。此时,包含该部分字符串两次以上的文件数为df2。
这里,设作为字符串x的出现概率估计值(出现频度)的df(x)/N为α,设对adaptation进行估计的df2(x)/df(x)的估计值(出现集中度)为β。如果假设字符串的出现为泊松分布,则α和β为相同的值。在实际的文集中β的值大,如果被识别为关键词的字符串,则与α相比,可以观测到α和β的差特别大。
作为出现集中的情况,这里将‘关于机器人’这样的词的部分字符串x的一例和与其对应的df、df2、α(=df/N)和β(=df2/df)示于图2。这里,可以观测的情况有两个。一种情况是在构成关键词的字符串中,与α相比β大的情况。这种情况大多表现为作为关键词的词在文件中出现多次。此外,这种情况在图2中也可以容易地确认。另一种情况是如果超过词的边界,则β变小。某个词经常作为相同词来表现,但根据其后接续的字符可各种各样地变化可导出这种情况。在图2中,如果部分字符串x从‘ロボット’变化为‘ロボットに’,根据至此大致一定值的β变小,也可以确认这种情况。
根据β的值,通过对字符串的单词接近度(加权)进行估计来进行单词的分割。加权(score)的估计被图3那样分类。这里,在df2为相当少的字符串x,即df2在3以下时(在S2中为‘否’),降低定义不看成单词的加权(S4)。在被识别为单词时,即在df2比3大并且tf在N以下时(在S2中为‘是’并且在S6中为‘否’),估计β的值,将其对数值作为加权(S8)。其中,在总出现数tf超过N时,单词接近度不正确地反映在β中。这意味着在文章中助词等无论出现多少次也不形成词。因此,在满足tf>N的条件时单词接近度饱和(在S6中为‘是’),将常数0.5的对数作为加权(S10)。在所有的字符串分割中,如上来求加权,求出各字符串的加权总和最大的分割。
这里,为了确定单词接近度而使用几个阈值。与必须网罗所有的单词的字典不同,可以从样本的单词中求出值,即使是新的文件,也可以进行这种操作。例如,β的值受到文件长度的影响,但可以通过确定该阈值来对应。
这里,将按该方法进行分割的例子和使用词素解析进行分割的例子分别示于图4和图5。助词和助动词的分割是不自然的,但可以观测可正确地提取关键词的情况。
[字符串分割的其他实施形态]
下面叙述与上述分割方法不同的其他分割方法的实施形态。
即,在其他实施形态的分割方法中,通过分别求出单词开始的分隔处和结束的分隔处,可进行字符串的分割。具体地说,首先,计算从字符串X的某个开始点(subStr)断开的部分字符串的加权score(subStr)、以及将部分字符串延长1字符(α)所得的部分字符串的加权score(subStr+α)。此外,计算开始点subStr的下个字符α出现的概率prob(subStr+α)。其中,字符串X的加权(score)根据
score(X)=log(df2/df)所示的公式来计算,在字符串X之后字符α出现的概率根据
prob(X+α)=tf(x+α)/tf(X)所示的公式来计算。然后,按下式产生将开始点subStr和字符α之间作为单词分隔处的妥当性尺度w。
w=f(score(subStr)-scare(subStr+α))+g(prob(subStr+α))
=f(x)+g(y)
这里,f(x)和g(y)分别是x和y的函数,例如,预定为下式那样的函数。
f(x)=1(x>0),0(x≤0)
g(y)=1(y<0.7),0(y≥0.7)
即,在上述例中,如果满足以下2式的某个关系,则将开始点subStr和字符α之间作为看成单词分隔处的场所,产生妥当性的尺度w=1。此外,如果还满足以下2式的某个关系,则产生w=2。再有,在下式中,maxProb是预先设定的值,例如被设定为0.7。
score(subStr)>scare(subStr+α)
prob(subStr+α)<maxProb
再有,上述式是f(x)和g(y)的一个具体例,如下式所示,也可以是一般话的形式。
f(x)=ax+b(x>c),0(x≤c)
g(y)=dy+e(y<f),0(y≥f)
此外,字符串X的加权不仅是依赖于df2/df的形态,而且即使是后述的其他形态也同样可以采用。
从字符串X的所有场所向前后两方执行以上的处理,求出作为单词分隔处的妥当性尺度的合计值(合计尺度)z。然后,实际上为了求出分割字符串的分隔处,所以调查合计尺度z大的场所。具体地说,将具有某个阈值K以上的z值的场所作为分割字符串X的分隔处。可以将合计尺度z大的场所认为是从前后各个部分字符串中被估计为集中的分隔处的场所。这样,可以估计认为是单词的开始点或结束点的场所。从这样求出的单词的开始点和结束点断开字符串,作为单词的侯选。
如果按这样的分割方法来分割字符串,则例如在将图2所示的‘ロボットに’分割成‘ロボット’和‘に’时,‘ト’和‘に’的分隔处合计尺寸z不仅与根据‘ロボット’和‘ロボットに’的关系相加所得的作为分隔处的妥当性尺度w相加,而且还与根据‘ロボット’和‘ロボットに’的关系所得的尺度相加,所以不将错误单词的前后一部分字符分割在断开的部分字符串上,有助于正确的单词分隔处的判定,可进行更正确的字符串的分割。即,单词的部分字符串可根据与要分割的单词相同程度的加权这样的性质来进行更正确的分割。
此外,在该分割方法中,不仅利用加权,而且利用特定字符出现的概率prob,所以可以抑制助词和助动词包含在单词前后被分割的可能性。但是,在文件数多,‘机器人’和‘到机器人’不同样出现时,有产生将‘到机器人’分割成一个单词的可能性。下面叙述有关对付该问题的处理。
即,仅在片假名、英文字母数字、以及汉字的前后附加一个字符时(例如,‘た’‘と’‘に’‘の’‘は’‘へ’‘も’や’‘が’‘で’等),判断为助词,执行除去该字符的处理并进行关键词的判定。再有,在前后附加两个字符以上的平假名时,成为单词的一部分的可能性高(复合词),所以不实施这样的处理。此外,在不是片假名、英文字母数字、以及汉字,而是平假名时,不实施这样的处理。
通过进行这样的处理,可以极大地抑制助词和助动词包含在单词的前后被分割的可能性。
[关键词侯选的挑选]
部分字符串x的出现频度α大时,表示该字符串x是出现在非常多的文件中的字符串。因此,这样的字符串x识别文件的能力低。相反,在α小时,例如仅出现一次的字符串被认为是很少使用的非常特殊的字符串。这样的字符串被认为没有表示与其他文件的关联的能力。因此,作为关键词的期望字符串,在可以鉴别文件的单词这样的性质上,是α被包含在某个一定范围内的字符串。而且,为了估计单词是否与文件的内容有关,再次使用考虑β值求出的加权。有关α和β的值的范围,利用文集进行学习,选择提取范围的侯选。
具体地说,例如将完全满足例如图6的条件的部分字符串看成关键词。即,在部分字符串x的α值大于0.00005、并且小于0.1,部分字符串x的加权大于-1.0,并且部分字符串x的长度大于1时(在S12中为‘是’,在S14中为‘是’,并且在S18中为‘是’)时,将部分字符串x确定为关键词(S20)。在除此以外的情况时,确定为不是关键词(S16)。再有,设len[x]为字符串x的长度。再有,这里使用的各值不限定于这些值。例如,从通过对象文件组产生变化,并调节要提取的关键词数的观点来看,也可以进行变化。
再有,这里如图3所示,以β=df2/df的对数值作为加权。但是,关键词的出现集中度β依赖于出现频度α(=df/N),并有图22所示的分布性质。因此,在上述图6所示的关键词的判定中,在步骤S14中以部分字符串x的加权是否大于1.0作为判定基准,但通过使判定基准依赖于α,也可以进行适当的关键词判定。具体地说,对于部分字符串x的加权score,将是否满足
score≥log(df/N)/4所示的关系作为判定基准。
[后缀文件形成部22的处理]
参照图7,说明后缀文件形成部22的处理。后缀文件形成部22将形成文件组的多个文件相联来形成一个长大的字符串(S22)。例如,如图8(A)所示,设该字符串是作为‘abcabd’求出的字符串。
由形成的字符串来形成一边将开始位置错开1字符一边生成的部分字符串。此外,在各部分字符串中附加通用号码(后缀)(S24)。如果由字符串‘abcabd’形成部分字符串和后缀,则如图8(B)所示。
通过以字典顺序来排列部分字符串来形成后缀文件(S26)。在后缀文件中,将后缀并排的情况称为后缀阵列。即,形成图8(C)那样的后缀文件。将形成的后缀文件存储在后缀文件存储部24中。通过使用该后缀文件,可以用少的计算量来求出原来的文件组中的所有字符串的出现频度和出现集中度。
[分隔部28的处理]
参照图9来说明分隔部28的处理。
分隔部28打开文件(S32),将用于临时存储字符串所准备的缓冲器(未图示)清零(S34)。从文件读取字符串(S36)。S36中的字符读入从文件的开头字符进行,在每次进行S36的处理时,依次读入后面的字符。
判断读入的字符是否为EOF(End Of File)(S38)。在读入的字符是EOF时(S38中为‘是’),将缓冲器中存储的文章从分隔部28输出到评分计算部26(S40),将处理结束。
如果读入的字符不是EOF(S38中为‘否’),则判断读入的字符是否为‘。’或‘、’等分隔字符(S42)。如果读入的字符不是分隔字符(S42中为‘否’),则将读入的一字符追加在缓中器中(S44)。然后,返回到S36。
在读入的字符是分隔字符时(S42中为‘是’),将缓冲器中存储的文章从分隔部28输出到评分计算部26(S46),对缓冲器进行清零(S48)。然后,返回到S36。
[评分计算部26的处理]
参照图10和图11来说明评分计算部26的处理。
参照图11,评分计算部26将从分隔部28输入的输入字符串X的长度作为len_X,形成具有len_X元素数的排列value、table和from(S52)。这里,table[i]表示从第1字符至第i字符的加权的最佳值(最大值)。Value[i]表示从第from[i]字符至第i字符的加权的最佳值(最大值)。from[i]表示第i字符中的加权为最合适(最大)时的分隔开始位置。
将排列value、table和from的元素进行初始化(S54)。即,将排列table的所有元件初始化为min_score×len_X。这里,min_score是预定的常数,这里,设min_score=-10000。此外,将排列value的所有元素初始化为0。而且,对于排列from的所有元素,将第k号元素初始化为(k-1)。
接着,将表示输入字符串的关注字符的计数器i设定为1(S56)。即,设定计数器i的值,以便指示输入字符串的开头。
如果table[i]=min_score×len_X,则table[i]=0,在除此以外的情况下不进行任何处理(S58)。
将计数器j的值设定为i+1(S60)。设从字符串X的第i字符至第j字符的字符串为x(S62)。判断字符串x的开头字符是否为‘-’或‘’(空白)(S64)。如果字符串x的开头字符不是‘-’或‘’(空白)(S64中为‘否’),则计算字符串x的tf、df和df2(S66)。判断df是否在1以上,即判断字符串x是否出现在文件组内(S68)。再有,tf表示在所有文件中字符串x出现的次数。
如果字符串x出现在文件组内(S68中为‘是’),则判断df2的值是否大于min_df2(S70)。min_df2是预定的常数,这里为3。
在df2大于min_df2时(S70中为‘是’),判断tf是否大于所有文件数N(S72)。在tf大于N时(S72中为‘是’),加权score被作为log(saturation_score)求出(S74)。这里,saturation_score是预定的常数,这里被设定为0.5。
在tf为N以下时(S72中为‘否’),加权score被作为log(df2/df)求出(S76)。
在df2为min_df2以下时(S70中为‘否’),加权score被作为min_score求出(S78)。
在S74、S76或S78后,判断table[j]是否小于(score+table[i])(S80)。在table[j]小于(score+table[i])时(S80中为‘是’),将i代入from[j],将(score+table[i])代入table[i],将score代入value[j](S82)。
在字符串x的开头字符为‘-’或‘’时(S64中为‘是’),在df为0时(S68中为‘否’)时,在table[j]为(score+table[i])以上时(S80中为‘否’)时和S82的处理后,使计数器j的值增加一个(S84)。然后,判断j是否大于len_X(S86)。
在j为len_X以下时(S86中为‘否’),返回到S62。在j大于len_X时(S86中为‘是’),使计数器的i值增加一个(S88)。然后,判断i是否大于len_X(S90)。在i为len_X以下时(S90中为‘否’),返回到S58。在i大于len_X时(S90中为‘是’),将排列from和value存储在运算结果存储部30中(S92),并结束评分计算部26中的处理。
例如,成为分割字符串‘关于2000年问题的对应策略’时的排列from、value和table的值如图12所示。由此,将各单词如图13那样进行分隔。再有,括弧内表示各单词的加权。
参照图14,说明求字符串a出现的文件的数目df和字符串a出现两次以上的文件的数目df2的处理(图10的S66)。在该处理中,为了缩短对同一字符串的处理时间,通过将字符串a和计算的df及df2登录在用于存储文件的数目的散列表(以下称为‘文件数散列表’),从而不需要再次计算。判断字符串a是否被登录在文件数散列表中。如果字符串a已登录(S101中为‘是’),则求登录的df和df2(S102)。
如果字符串a未被登录(S101中为‘否’),则从后缀文件的开头依次寻找字符串a,将与最初看到的字符串a对应的后缀作为min(S103)。在后缀min未求出时,即在后缀文件中不包含字符串a时(S104中为‘是’),是字符串a不出现在文件中的情况。因此,使df和df2的值为0(S105)。
在求出后缀min时(S104中为‘否’),将后缀文件中、在后缀min以后与最后出现的字符串a对应的后缀作为max(S106)。后缀从min至max的范围是与字符串a一致的字符串。求出这些字符串a上附加的文件号码中不同的文件号码的数目,将该数作为df(S107)。此外,参照这些字符串上附加的文件号码,求出相同的文件号码存在2个以上的号码数目,将该数作为df2(S108)。
在S98处理或S95的处理后,将字符串a、文件的数df和df2登录在文件数散列表中(S109)。在S99处理或S92处理后,将df和df2分别作为出现字符串a的文件数、字符串a出现两次以上的文件数返回(S110)。
参照图15来说明在所有文件中求字符串a的出现次数tf的处理(图10的S66)。
从后缀文件的开头顺序地寻找字符串a,将最初出现的字符串a的后缀作为min(S121)。在未求出后缀min时,即在后缀文件中不包含字符串a时(S122中为‘是’),将0代入tf(S123)。在求出后缀min时(S122中为‘否’),在后缀文件中,最后出现的字符串a的后缀作为max(S124)。根据下式(2)来求tf。
tf=max-min+1 …(2)
在S123或S125后,将tf作为字符串a的出现次数返回(S126)。
[文件分割部32的处理]
文件分割部32根据运算结果存储部30中存储的排列from和value,对输入的文件进行分割。即,为了对文件进行分割时的加权score的合计值最大,对文件进行分割。
[压缩部34的处理]
压缩部34执行上述[关键词侯选的选择]中说明的图6的流程图所示的处理,压缩关键词。
[关键词提取装置20的结构例]
上述关键词提取装置20可由计算机实现。参照图16,关键词提取装置20包括:计算机41;向计算机41提供指示的键盘45和鼠标器46;显示由计算机41运算的结果的显示器42;分别读取计算机41执行的程序的磁带装置43、CD-ROM(Compact Disc-Read Only Memory)装置47;以及通信调制解调器49。
关键词提取装置20的程序被存储在作为计算机41可读取的记录媒体的磁带44或CD-ROM48上,由磁带装置43和CD-ROM装置47分别读取。或者,通过通信线路由通信调制解调器49读取。
参照图17,计算机41包括:执行通过磁带装置43、CD-ROM装置47或通信调制解调器49读取的程序的CPU(Central Processing Unit)50;存储计算机41工作所需的其他程序和数据的ROM(Read Only Memory)51;存储程序、程序执行时的参数、运算结果等的RAM(Random Access Memory)52;以及存储程序和数据等的磁盘53。
磁带装置43、CD-ROM装置47或通信调制解调器49读取出的程序由CPU50执行,使关键词提取处理被执行。
再有,后缀文件存储部24和运算结果存储部30由RAM52或磁盘53来实现。关键词提取装置20的其他结构部通过CPU50执行的软件来实现。
[字符串x的加权计算式的变形例]
在图3的S8或图10的S76中,将字符串x的加权作为log(df2/df)来求,但考虑到出现频度、出现集中度、部分字符串长度和文件的平均长度,在文件的平均长度大于200字符时,作为log{(N/df)×(df2/df)×len(x)}来求出加权,在文件的平均长度为200字符以下时,也可以作为log{(N/df)×len(x)}来求出加权。如果各文件变小,则有出现集中度接近0的倾向。因此,通过以文件的平均长度来改变加权的计算方法,即使出现频度的值小,也可以计算合适的加权。
如以上说明,根据本实施例,即使预先不需要词素解析的字典,也可以进行关键词的提取。
[实施例2]
与实施例1说明的装置同样,本实施例的信息检索装置由计算机来实现。
本实施例涉及基于提取的关键词的字符串之间的相似度的计算方法。假设计算输入的字符串和数据库中登录的多个文件的相似度。在求字符串之间的一致部分时,使用以下方法:分别对于数据库中所有的文件,通过利用后缀文件来从数据库内高效率地检索包含从输入字符串中提取的关键词的文件。
对于提取出的关键词,按以下方法进行一致信息的收集。从所有文件数据库中求出包含该文件的文件。将这些各文件内的该关键词的出现场所、输入字符串的关键词的出现场所、关键词的长度、关键词的加权作为一致信息来记录。
通常,不对得到的一致信息进行记录和管理,而计算相加其原来的加权的相似度。但是,通过对该信息进行记录和管理,不仅适用于将一致的关键词的加权进行相加来计算相似度的方法,而且适用于保证原来的高速性的许多相似度计算方法。
输入字符串和数据库内的文件的相似度通过将一致的关键词上附加的加权进行相加来计算。
在本发明中,基于提取并计算作为计算对象的关键词的字符串相似度的文件检索程序的处理流程图示于图18~图21。本程序根据输入的检索文章,对文件数据库进行检索,对相似度高的多个文件进行检索。
参照图18,说明根据检索文章来对文件数据库进行检索,选择并输出相似度高的文件的处理。
首先,为了准备高效率地计算某个字符串的出现次数,将文件数据库中包含的所有文件进行集中,并形成后缀文件(Suffix File)(S131)。
接着,将检索文章读取为字符串X(S132)。将从字符串X提取的关键词记录在关键词管理表中(S133)。
对于关键词管理表中记录的各关键词,收集一致信息,进行向一致信息管理表的记录(S134)。一致信息是表示关键词的字符串X的出现场所、关键词的文件内的出现场所、关键词的长度和关键词的加权的信息。在一致信息管理表中,对应每个文件号码,一致信息被作为列表记录。有关S134的处理将在后面详述。
从一致信息管理表中取出某个文件Y的列表(S135)。
从取出的列表中计算字符串X和文件Y的相似度(S136)。有关S136的处理将在后面详述。
将求出的相似度和文件号码形成组,登录在文件管理表中(S137)。
对于一致信息管理表中记录的所有列表,判断是否计算了相似度(S138)。如果没有对所有的列表计算相似度(S138中为‘否’),则返回到S135。
如果对所有的列表计算了相似度(S138中为‘是’),则以相似度高的顺序来重新排列文件管理表的相似度和文件号码的组(S139)。
输出相似度高的文件(S140)。输出的文件可以仅是一个,也可以是预定的规定个数。此外,也可以输出规定的相似度以上的文件。
参照图19,说明收集关键词管理表中记录的各关键词和文件数据库内的各文件的一致信息,并将该信息记录在一致信息管理表中的处理(图18的S134)。
将关键词管理表中某个关键词作为选择a(S151)。求出在文件数据库内产生关键词a的所有场所,以出现该关键词场所的顺序进行重新排列(S152)。
对于关键词a的各出现场所,求出包含关键词a的文件号码。此时,关键词a以出现场所顺序来排列,所以得到的文件号码也以从小开始的顺序来排列(S153)。
从前一个出现场所起依次选择一个关键词a的出现场所(S154)。判定选择的关键词a的出现场所在包含该场所的文件内是否为最前方的出现场所(S155)。即,如果选择的出现场所的文件和前一个选择的出现场所的文件有所不同,则它是选择的文件的最初出现场所。如果选择的出现场所的文件和前一个选择的出现场所的文件相同,则它是选择的文件的第2号以后的出现场所。
在判断为关键词a的出现场所是文件内最初的出现场所时(S155中为‘是’),将输入字符串X的关键词a的出现场所(以下称为‘startX’)、文件内的关键词a的出现场所(以下称为‘startdoc’)、关键词a的长度(以下称为‘term length’)和关键词a的加权(以下称为‘scrore’)形成组,并记录在一致信息管理表中(S156)。
参照图20,一致信息管理表由每个文件信息的一致信息列表构成。在文件号码0002中将一致信息1和5作为列表来记录,在文件号码0100中将一致信息2、3和6作为列表来记录,在文件号码0111中将一致信息4和7作为列表来记录。在各个一致信息中,存储输入字符串X的关键词的startX、startdoc、termlength和score。
在得到新的有关文件号码0002的一致信息8时,如图20所示,至此指示一致信息5的指示列表开头的指针指示一致信息8,从一致信息8向一致信息5的指针张开,在文件信息0002的列表的开头记录一致信息8。
再次参照图19,在S156后或在关键词a的出现场所被判断为在文件内第2号以后时(S155中为‘否’),判定是否全部调查关键词a的出现场所(S157)。
如果有没调查出现场所(S157中为‘否’),则返回到S154。如果对于所有出现场所结束调查(S157中为‘是’),则对于关键词管理表内的所有关键词,判定是否进行了一致信息的收集(S158)。当存在没有进行一致信息的收集的关键词时(S158中为‘否’),返回到S151,以便读取还未选择的关键词a。如果结束对所有关键词的一致信息的收集(S158中为‘是’),则返回得到的一致信息管理表(S159)。
参照图21,说明使用从一致信息管理表中取出的列表,通过一致的字符串的加权的相加来求输入文章X和文件Y的相似度的处理(图18的S136)。
将X和Y的相似度(以下称为‘sim’)初始化为0(S161)。从一致信息管理表中记录的有关Y的列表中选择某个一致信息,作为I(S162)。
将一致信息I的score与sim相加(S163)。判定对于有关文件Y的一致信息列表中记录的所有一致信息是否进行了调查(S164)。而且,如果没有进行调查的一致信息(S164中为‘否’),则返回到S162。如果对于所有的一致信息进行了调查(S164中为‘是’),则将得到的sim作为输入文章X和文件Y的相似度返回(S165)。
如以上说明,根据本实施例的信息检索装置,可以从预先登录的数据库中寻找出与用户输入的文件相似的文件。因此,例如在FAQ(Frequently AskedQuestions)系统中,在将用户询问作为输入文章提供时,可以取出与该输入文章对应的FAQ。
应该指出,以上公开的实施例在所有方面都是例示而不是限制性的。本发明的范围由权利要求书的范围来表示,而不由上述说明来表示,这意味着本发明的范围包含权利要求书的范围和同等意义范围内的所有变更。
本发明可以不需要字典而通过文件提取关键词。
Claims (12)
1.一种关键词提取装置,包括:
出现频度计算部件,求出文件组中的各文件内包含的部分字符串在所述文件组中的出现频度;
出现集中度计算部件,求出所述部分字符串在所述文件组中的出现集中度;以及
第1关键词提取部件,被连接到所述出现频度计算部件和所述出现集中度计算部件,根据所述出现频度和所述出现集中度,从输入的文件中提取关键词。
2.如权利要求1所述的关键词提取装置,其中,所述第1关键词提取部件包括:
文件分割部件,将输入的文件分割为部分字符串;
单词接近度计算部件,被连接到所述文件分割部件、所述出现频度计算部件和所述出现集中度计算部件,根据所述出现频度和所述出现集中度来计算所述部分字符串的单词接近度;以及
第2关键词提取部件,被连接到所述单词接近度计算部件,根据所述单词接近度的合计值,从所述文件中提取关键词。
3.如权利要求2所述的关键词提取装置,其中,所述单词接近度计算部件包括以下部件,该部件被连接到所述文件分割部件、所述出现频度计算部件和所述出现集中度计算部件,根据所述出现频度、所述出现集中度、所述部分字符串的长度和所述文件的平均尺寸,来计算所述部分字符串的单词接近度。
4.如权利要求2所述的关键词提取装置,其中,还包括压缩部件,该压缩部件被被连接到所述第2关键词提取部件、所述出现频度计算部件和所述出现集中度计算部件,根据所述出现频度、所述出现集中度和所述部分字符串的长度来压缩由所述第2关键词提取部件提取的关键词。
5.如权利要求2所述的关键词提取装置,其中,还包括分隔部件,以句号和逗号来分隔所述输入的文件,并供给所述文件分割部件。
6.如权利要求2所述的关键词提取装置,其中,所述文件分割部件包括以下部件,该部件将输入的文件分割为部分字符串,使得开头字符不从预定的字符开始。
7.如权利要求2所述的关键词提取装置,其中,所述文件分割部件包括以下部件,该部件将输入的文件分割为部分字符串,使得部分字符串的长度不在预定的字符数以上。
8.如权利要求2所述的关键词提取装置,其中,所述文件分割部件包括:
妥当性计算部件,被连接到所述单词接近度计算部件,从所述单词接近度计算部件算出的所述文件的规定位置开始的第1部分字符串的第1单词接近度起,根据将所述第1部分字符串延长1字符所得的第2部分字符串的向第2单词接近度的变化,来计算将所述规定位置作为单词分隔处的妥当性尺度;
分隔处提取部件,被连接到所述妥当性计算部件,对从所述规定位置的前后方向将所述第1部分字符串延长1字符时所得的所述妥当性尺度进行合计,将所述妥当性尺度的合计为阈值以上的所述规定处作为单词分隔处来提取;以及
部分字符串切出部件,被连接到所述分隔处提取部件,切出将所述提取的单词分隔处作为所述单词的开始点和终点的部分字符串。
9.如权利要求8所述的关键词提取装置,其中,还包括出现频度计算部件,被连接到所述出现频度计算部件,根据所述出现频度计算部件算出的第1部分字符串的第1出现频度和所述第2部分字符串的第2出现频度之比,来计算所述第1部分字符串的出现概率;
所述妥当性计算部件除了根据从所述第1单词接近度向所述第2单词接近度的变化以外,还根据所述出现概率来计算将所述规定位置作为单词分隔处的妥当性尺度。
10.如权利要求8所述的关键词提取装置,其中,所述部分字符串切出部件对于所述提取的单词分隔处作为所述单词的开始点和终点的部分字符串,将片假名、英文字母数字、以及汉字构成的字符串前后附带的1字符的字符判断为助词,将除去了所述助词的部分字符串切出。
11.如权利要求2所述的关键词提取装置,其中,所述第2关键词提取部件被连接到所述出现频度计算部件,根据所述单词接近度的合计值,依赖于所述出现频度计算部件算出的出现频度,从所述文件中提取关键词。
12一种信息检索装置,包括:
出现频度计算部件,求出文件组中的各文件内包含的部分字符串在所述文件组中的出现频度;
出现集中度计算部件,求出所述部分字符串在所述文件组中的出现集中度:
关键词提取部件,被连接到所述出现频度计算部件和所述出现集中度计算部件,根据所述出现频度和所述出现集中度,从输入的文件中提取关键词;
一致度计算部件,被连接到所述关键词提取部件,对于所述文件组中的各文件,计算与所述关键词提取部件提取的各关键词的一致度;
相似度计算部件,被连接到所述一致度计算部件,根据所述一致度,对于所述文件组中的各文件,计算与所述输入的文件的相似度;以及
被连接到所述相似度计算部件,根据所述相似度,从所述文件组中提取与所述输入文件组相关联的文件的部件。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002169036A JP2004013726A (ja) | 2002-06-10 | 2002-06-10 | キーワード抽出装置および情報検索装置 |
JP169036/2002 | 2002-06-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1466083A true CN1466083A (zh) | 2004-01-07 |
Family
ID=29774053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA021598231A Pending CN1466083A (zh) | 2002-06-10 | 2002-12-27 | 关键词提取装置和信息检索装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2004013726A (zh) |
CN (1) | CN1466083A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100422993C (zh) * | 2004-07-29 | 2008-10-01 | 索尼株式会社 | 信息处理设备与方法 |
CN102165443A (zh) * | 2008-10-03 | 2011-08-24 | 富士通株式会社 | 记录文章抽取程序的计算机可读取记录介质、文章抽取方法、文章抽取装置 |
CN102227728A (zh) * | 2008-12-26 | 2011-10-26 | 桑迪士克以色列有限公司 | 过滤文件系统的设备和方法 |
CN104182432A (zh) * | 2013-05-28 | 2014-12-03 | 天津点康科技有限公司 | 基于人体生理参数检测结果的信息检索与发布系统及方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100444591C (zh) * | 2006-08-18 | 2008-12-17 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
JP7199264B2 (ja) * | 2019-03-18 | 2023-01-05 | 株式会社東芝 | 認識装置、認識方法及びプログラム |
CN112182283A (zh) * | 2020-09-21 | 2021-01-05 | 咪咕文化科技有限公司 | 歌曲搜索方法、装置、网络设备及存储介质 |
-
2002
- 2002-06-10 JP JP2002169036A patent/JP2004013726A/ja active Pending
- 2002-12-27 CN CNA021598231A patent/CN1466083A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100422993C (zh) * | 2004-07-29 | 2008-10-01 | 索尼株式会社 | 信息处理设备与方法 |
CN102165443A (zh) * | 2008-10-03 | 2011-08-24 | 富士通株式会社 | 记录文章抽取程序的计算机可读取记录介质、文章抽取方法、文章抽取装置 |
CN102165443B (zh) * | 2008-10-03 | 2013-05-15 | 富士通株式会社 | 文章抽取方法、文章抽取装置 |
CN102227728A (zh) * | 2008-12-26 | 2011-10-26 | 桑迪士克以色列有限公司 | 过滤文件系统的设备和方法 |
CN102227728B (zh) * | 2008-12-26 | 2013-06-05 | 桑迪士克以色列有限公司 | 过滤文件系统的设备和方法 |
CN104182432A (zh) * | 2013-05-28 | 2014-12-03 | 天津点康科技有限公司 | 基于人体生理参数检测结果的信息检索与发布系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2004013726A (ja) | 2004-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1158627C (zh) | 用于字符识别的方法和装置 | |
CN1096038C (zh) | 基于贝叶斯网络的用于文件检索的方法和设备 | |
CN1227613C (zh) | 注释数据生成、音素或字搜索及添加的相应设备与方法 | |
CN1139884C (zh) | 信息处理方法和装置 | |
CN1924858A (zh) | 一种获取新词的方法、装置以及一种输入法系统 | |
CN1288581C (zh) | 用缩减大小的索引进行文献检索的设备 | |
CN1171162C (zh) | 基于字符分类检索字符串的装置和方法 | |
CN1156773C (zh) | 字典管理方法以及装置 | |
US8335787B2 (en) | Topic word generation method and system | |
CN1316707A (zh) | 数据压缩与检索方法和数据检索设备及记录媒体 | |
CN1117160A (zh) | 产生未知字母之字模的方法与系统 | |
CN1533163A (zh) | 电子节目指南数据的自由文本和属性搜索 | |
CN1904896A (zh) | 结构化文档处理装置、搜索装置及结构化文档系统和方法 | |
CN1591415A (zh) | 机器翻译装置以及机器翻译计算机程序 | |
CN1577328A (zh) | 基于视觉的文档分割 | |
CN1434952A (zh) | 根据有含义中心词检索信息的方法和系统 | |
CN1281191A (zh) | 信息检索方法和信息检索装置 | |
CN1744087A (zh) | 搜索文档的文档处理装置及其控制方法 | |
CN1871563A (zh) | 加工信息产生装置、程序和加工信息产生方法 | |
CN1932819A (zh) | 一种互联网音频文件的聚类方法、搜索方法及系统 | |
CN102270244B (zh) | 基于核心语句的网页内容关键词快速提取方法 | |
CN1786947A (zh) | 基于网页页面布局提取网页核心内容的系统、方法和程序 | |
CN1949227A (zh) | 一种针对可播放媒体文件的搜索方法、系统及装置 | |
CN1282151C (zh) | 语音识别设备和语音识别方法 | |
CN1466083A (zh) | 关键词提取装置和信息检索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |