CN100568242C - 用于提取新复合词的系统和方法 - Google Patents
用于提取新复合词的系统和方法 Download PDFInfo
- Publication number
- CN100568242C CN100568242C CNB2007100881254A CN200710088125A CN100568242C CN 100568242 C CN100568242 C CN 100568242C CN B2007100881254 A CNB2007100881254 A CN B2007100881254A CN 200710088125 A CN200710088125 A CN 200710088125A CN 100568242 C CN100568242 C CN 100568242C
- Authority
- CN
- China
- Prior art keywords
- compound word
- word
- text
- frequency
- occurrences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
公开了用于提取新复合词的系统和方法,以从相继出现在文本中的多个单词中,准确地检测出短语的合适部分。从多个文本提取复合词的系统包括:获得部件,其通过对多个第一文本进行分析获得复合词候选;计算部件,其在多个文本中的每一个中搜索包含在复合词候选中的单词,然后计算每个单词在每个文本中的出现频率;以及选择部件,其基于在时序数据中各单词的出现频率变化是否彼此同步,选择是否将所述复合词候选提取为复合词,所述时序数据分别表示按照第二文本的公开时间的顺序排列的每个单词的出现频率。
Description
技术领域
本发明涉及用于从多个文本中提取短语的系统。具体而言,本发明涉及基于短语出现频率提取短语的系统
背景技术
顾客可以将他们关于公司及其货物和服务的批评、抱怨等张贴到在Internet上的公告牌和网络日志(weblog)上。与例如在呼叫中心收集信息或收集对问卷的应答信息的传统情形相比,这样的信息量更大,且很容易收集。此外,顾客往往将坦诚的意见张贴到公告牌和网络日志上。如果使用这样的信息,公司将进一步提升公司策略的规划。
顾客可以以任何样式向公告牌和网络日子张贴文本。用于从这样各种样式的文本中提取有用信息的技术称为“文本挖掘(text mining)”等,已对该技术进行了研究(参看非专利文献4至6和专利文献2至5)。在文本挖掘中,通常对所要关注的关键词在文本中出现的频率以及频率随时间的变化进行分析。在该文本中的关键词不仅可以为单个单词,还可为由多个单词组合而成的复合词。然而,要适当确定出要关注的关键词却并非容易,该确定可导致文本挖掘结果大相径庭。
[专利文献1]日本专利申请公开No.2002-245062
[专利文献2]日本专利申请公开No.2001-325272
[专利文献3]日本专利申请公开No.2004-206391
[专利文献4]日本专利申请公开No.2002-251402
[专利文献5]日本专利申请公开No.2005-165748
[非专利文献1]S.Ananiadou 1994.A Methodology For AutomaticTerm Recognition.CLOING 1994:1034-1038
[非专利文献2]Nakagawa H.And Mori T.2003 Automatic TermRecognitioin based on Statistics of Compound Nouns and theirComponents.Terminology,Vol.9 No.2,pp.201-219
[非专利文献3]Nakagawa Hiroshi.and Mori Tatsunori,YumotoHiroaki.2003.SYUTUGEN-HIND TO RENSETU-HINDO NIMOTODUKU SENMON-YOUGO CHUUSHUTSU SIZEN-GENGO-SYORI(Terminology Extraction and Natural Language Processing basedon Appearing Frequency and Linking Frequency),Vol.10 No.1,pp.27-45
[非专利文献4]J.Kleinberg 2002 Bursty and HierarchicalStructure in Streams.KDD 2002,pp.91-101
[非专利文献5]Sato Yoshihide.,Kawashima Harumi,SasakiTsutomu.,and Oku Masahiro.2005 ZIKEIRETSU NYUSU NI OKERUSAISHIN-WADAIGO-CHUUSHUTSU-HOUHOU(Method forExtracting Terms of Current Information of Temporal News.)Information Processing Society of Japan.Special Interest Group ofNatural Language Processing.NL168,pp.1-12
[非专利文献6]Sekiguchi Yuuichiro,Sato Yoshihide,KawashimaHarumi,Okuda Hidenori and Oku Masahiro 2005 BLOG-PEZI-SYUUGOU NI TAISURU WADAIGOKU CHUUSHUTSU SYUHOU(Method for Extracting Terms of Current Topics in Blog Page Assembly).Information processing Society of Japan,Special Interest Group ofNatural Language Processing NL170,pp27-32
[非专利文献7]Nasukawa T.and Nagano T.2001 Text analysisand knowledge mining system.IBM Systems Journal,Vol.40,No.4,pp967-984
[非专利文献8]Nagano T.,Takeda K.and Nasukawa T.2001Knowledge Discovery using Robust Natural Language Processing.InProc.of PACLING 2001
发明内容
[本发明要解决的问题]
过去,已研究了用于从接连出现在文本中的多个单词中检测出短语的合适部分作为复合词(参看非专利文献1至3和专利文献1)的技术。在每种技术中,基于其中相应一个单词在文本中出现的频率(以下也称“出现频率”)来提取出复合词。通过使用各个单词在文本中出现的频率(以下简单称为“出现频率”)来提取复合词。例如,在多个单词出现在某一复合词候选的相邻位置处的情形下,通过包含这些相邻单词来确定复合词是不合适的。在此情形中,有必要仅将复合词候选确定为复合词。然而,如果复合词在文献中总体而言出现频率较低但仅因流行而暂时使用它,则会出现这些技术不能恰当地对复合词进行判断的情形。
此外,以下方法已得到研究。在一个方法中,用户构建其中记录复合词的字典。在另一方法中,将作为语法分析结果而获得的名词短语视为复合词。然而,在字典中登记所有复合词是不现实的,这是因为构建字典耗力耗时,而且有时会自发创建复合词。此外,作为语法分析的结果而获得的名词短语作为文本挖掘的关键词可能是不合适的,这是因为在文献中名词短语可能出现频率极低。
本发明的目的在于提供能够解决上述问题的一种系统、一种方法和一种程序。通过权利要求范围内的独立权利要求的特征的组合来实现该目的。此外,从属权利要求限定了本发明的其他有益具体示例。
[解决问题的手段]
为解决上述问题,本发明的一方面是提供一种用于从多个文本中提取复合词的系统、一种用于使信息处理设备作为该系统的程序、和一种通过该系统提取获得复合词的方法。该系统包括获得部件、计算部件和选择部件。获得部件作为分析多个第一文本的结果而获得复合词候选。作为在每个第二文本中搜索该单词的结果,计算部件计算在其中一个复合词候选中包含的单词在多个第二文本的每个中的出现频率。基于在时序数据中各单词的出现频率变化是否彼此同步,选择部件选择是否要将复合词候选提取为复合词,所述时序数据包含按照第二文本的公开时间的顺序排列的每个单词的出现频率变化。
注意,以上关于本发明的概括性描述并不涵盖发明所有必要特征,而且,这些特征的子组合也可构成发明。
[发明的效果]
本发明使得能够从相继出现在文本中的多个单词中准确地检测出短语的合适部分以作为复合词。
附图说明
图1显示出本发明实施例的信息处理系统10的整体配置;
图2表示本发明实施例的复合词提取设备20提取复合词的流程图;
图3表示在短语“bird flu problem”中包含的单词“bird”的出现频率的时序数据;
图4表示在短语“bird flu problem”中包含的单词“flu”的出现频率的时序数据;
图5表示在短语“bird flu problem”中包含的单词“problem”的出现频率的时序数据;
图6表示短语“train explosion accident”的出现频率的时序数据;
图7表示在短语“train explosion accident”中包含的单词“train”的出现频率的时序数据;
图8表示在短语“train explosion accident”中包含的单词“explosion”的出现频率的时序数据;
图9表示在短语“train explosion accident”中包含的单词“accident”的出现频率的时序数据;
图10表示本发明实施例的文本检索设备30检索文本的处理流程图;
图11显示出本发明实施例的检索部件320输出的检索结果的显示示例;以及
图12显示出用作为复合词提取设备20或文本检索设备30的信息处理设备500的硬件配置示例。
[附图标记描述]
10:信息处理系统
20:复合词提取设备
25:文献数据库
30:文本检索设备
35:通信网络
200:获得部件
100:计算部件
220:选择部件
230:输出部件
300:存储部件
310:输入部件
320:检索部件
500:信息处理设备
具体实施方式
下面,将描述本发明优选的实施方式(以下称为“实施例”)。然而,以下实施例并不构成对本发明的权利要求范围的限制。此外,并非一定需要实施例中所述特征的所有组合来实现本发明。
图1显示出本发明实施例的信息处理系统10的整体配置。信息处理系统10包括复合词提取设备20和文本检索设备30。复合词提取设备20从文献数据库25中记录的多个文本中提取出复合词。在文献数据库25中,记录有统称为“文献”的多个文本。文献包括多个第一文本和多个第二文本。第一文本用于获得复合词候选,第二文本用于计算复合词候选出现的频率(以下也称为“出现频率”)。通过例如从Internet上的电子公告牌或网络日志收集文本,可配置文献。文本检索设备30通过使用用户输入的搜索关键词在通信网络35中搜索第三文本,然后输出搜索结果。此外,在用户输入的多个搜索关键词的组合构成复合词的情形中,文本检索设备30还可使用该复合词搜索第三文本。
如所述,该实施例的信息处理系统10的目的在于,基于出现在文献中的文本,准确检测出短语的合适部分以作为复合词。其另一目的在于,通过使用检测的复合词,提高文本搜索效率。下面,将详细描述该实施例。
复合词提取设备20包括获得部件200、计算部件210,选择部件220和输出部件230。获得部件200对多个第一文本进行分析,然后获得多个复合词候选。当在第一文本中相继记录了构成复合词候选的单词的条件下,获得部件200注意到该复合词候选。例如,在第一文本中出现短语“bird flu texts”的情况下,“bird flu”,“bird flu problem”和“fluproblem”为复合词候选。具体而言,例如,获得部件200可分析每个第一文本的语法,判断各个单词的词类,然后将多个相继出现的名词判断为复合词候选。除此之外,在某一短语在文献数据库25中出现的频率大于预定频率的条件下,获得部件200将该短语判断为复合词。
计算部件210在多个第二文本的每个中搜索在多个复合词候选的每个中包含的每个单词的出现,然后计算各个单词在多个第二文本的每个中出现的频率。例如,当其中一个复合词候选为“bird flu problem”时,计算部件210计算在复合词候选中所包含的各个单词“bird”,“flu”和“problem”的出现频率。此外,计算部件210在多个第二文本的每个中搜索多个复合词候选中的每个,然后计算在多个第二文本的每个中各复合词候选出现的频率。例如,当其中一个复合词候选为“train explosionaccident”时,计算部件210不计算如“train”或“accident”的单个单词的出现频率,而是计算相继书写的单词“train explosion accident”的频率。此处,由获得部件200从中获得复合词候选的第一文本,和由计算部件210用于计算出现频率的第二文本,可以相同,可以不同,或者可以部分相同。
选择部件220对每个复合词候选执行下述处理。首先,将描述其中一个复合词候选包含预定重要单词的情形。根据重要单词出现频率的变化是否与包含在复合词候选中另一不同单词的出现频率的变化同步,选择部件220选择是否将复合词候选提取为复合词。具体而言,如果重要单词与不同单词各自的出现频率的变化彼此同步,则选择部件220将复合词候选选作复合词。如果不同步,则选择部件220不将复合词候选选作复合词。
此处提到的重要单词为例如先前由用户指定为在文献内容所属领域内重要的单词。从语言学的观点看,希望这种重要单词是与该领域特有语言单元的概念密切相关的单词。注意,可使用各种方法确定重要单词。例如,重要单词可以是在时序数据中出现频率在介于预定最低值与最高值之间的范围内的中间频率单词。此外,为了将中间频率单词视作重要单词,希望中间频率单词与复合词候选中包含的每个不同单词具有这样一种关系,即,中间频率单词被该不同单词修饰。或者,可使用定义处于兴趣主题中心的单词的传统技术,来检测重要单词。通过参考非专利文献8可了解这类技术的详细内容。作为另一示例,选择部件220可使用诸如TFIDF(项频率和逆向文档频率,term frequent andinversed document frequency)来检测某一领域特有的单词,并将该单词判断为重要单词。
与上述情形相反,在包含在复合词候选中的多个单词中的任何单词不是先前被指定为该文献所属领域中重要的单词,而且也不是中间频率单词的条件下,选择部件220执行下述处理。根据复合词候选的出现频率变化是否与各不同单词的出现频率变化同步,选择部件220选择是否将该复合词项选作复合词。此处,使用以下两种时序数据来确定同步。在一种时序数据中,按照第二文本的公开时间的顺序排列复合词候选的出现频率,而在另一种时序数据中,按照第二文本的公开时间的顺序排列每个单词的出现频率。具体而言,在关于复合词候选的时序数据与各单词的时序数据不同步的条件下,选择部件220将复合词候选提取为复合词。输出部件230将选择部件220如所述那样选出的复合词输出到文本检索设备30。
文本检索设备30包括存储部件300,输入部件310和搜索部件320。在预先设置多个标题词的状态下,存储部件300预先在多个目标第三文本中搜索包含每个标题词的第三文本,并与标题词相关联地存储获得的第三文本。在该情形中的多个目标第三文本例如为在搜索时公开在通信网络35中的Web页、电子公告牌、网络日志等。输入部件310接受用于检索第三文本的搜索关键词的输入。搜索部件320通过使用输入的搜索关键词在通信网络35中检索第三文本。在输入搜索关键词为标题词的条件下,搜索部件320从存储部件300读出与标题词相对应的第三文本,而不是从通信网络35检索包含搜索关键词的第三文本。之后,搜索部件320将读出的第三文本作为检测结果输出。
如所述,文本检索设备30事先检索与标题词相对应的文本。这缩短了在文本检索设备30接收用户输入的时间点与文本检索设备30输出检索结果的时间点之间的所需时间段。为此,标题词最好是预计作为搜索关键词输入的标题词。为此,通过在文本检索设备30中将所选复合词设置为标题词,选择部件220可使文本检索设备检索包含该复合词的文本,并可使存储部件300存储该文本。这使得能够将例如新使用的流行语登记为标题词,从而缩短搜索处理所需的时间段。
图2表示本发明实施例的复合词提取设备20提取复合词的流程图。获得部件200获得多个复合词候选(步骤S200)。之后,复合词提取设备20对每个复合词执行以下处理。首先,复合词提取设备20判断复合词候选是否包含重要单词(步骤S210)。例如,假设将单词“flu”事先指定为在特定领域中是重要的。
在复合词候选包含重要单词的条件下(步骤S210:是),计算部件210搜索多个第三文本的每个以便找出在复合词候选中包含的单词,并计算每个单词在每个第二文本中的出现频率的时序变化。例如,当其中一个复合词候选为“bird flu problem”时,计算部件210计算每个单词“bird”、“flu”、“problem”的出现频率的时序变化。图3至5表示在一些文献中实际获得的各单词的出现频率。
图3是表示在短语“bird flu problem”中包含的单词“bird”的出现频率的时序数据。计算部件210计算在单词“bird”出现的每个时间段中,该单词在文献数据库25的文献中出现的频率,从而获得如图3所示的时序数据。在时序数据中,单词“bird”的出现频率从一月到二月升高,从三月到四月减小。
图4是表示在短语“bird flu problem”中包含的单词“flu”的出现频率的时序数据。计算部件210计算在单词“flu”出现的每个时间段中,该单词在文献数据库25的文献中出现的频率,从而获得如图4所示的时序数据。在时序数据中,单词“flu”的出现频率从一月到二月升高,从三月到四月减小。
图5是表示在短语“bird flu problem”中包含的单词“problem”的出现频率的时序数据。计算部件210计算在单词“problem”出现的每个时间段中,该单词在文献数据库25的文献中出现的频率,从而获得如图5所示的时序数据。在时序数据中,单词“problem”的出现频率在一年中保持在更高水平,在二月附近处于峰值。
此处,将再次参照图2进行描述。随后,基于在显示出在复合词候选中包含的各单词的出现频率的时序数据中各单词出现频率的变化彼此是否同步,选择部件220计算出表示用于确定是否将复合词候选提取为复合词的水平的评分(步骤S230)。例如,用来计算评分的方法如下。此处,假设wall表示复合词候选,它由m个单词组成。w1至wm表示各个单词W1至Wm,从而,wall=w1w2...wm。
首先,选择部件220定义一个单词的出现频率与一个不同单词的出现频率的随时间变化之间的差。f(w,t)表示单词w在从时间点t开始的时间段ΔT期间出现的出现频率。此外,Δf(wi,tk)表示单词wi在时间点tk和时间点tk+1的出现频率之间的差,因此,获得以下等式。
[等式1]
Δf(wi,tk)=f(wi,tk+1)-f(wi,tk) 式(1)
此处,Dt(wi,wj,tk)表示在时间点tk处单词Wi的相继出现频率之间的差与单词Wj的相继出现频率之间的差之间的差,并且将其定义为如以下等式(2)所示。
[等式2]
将所有目标时间段(t0至tn-1)中用于计算评分的差相加在一起。因此,将相应单词wi和wj的各自频率变化之间的差水平Dt(wi,wj)定义为以下等式(3)所示。
[等式3]
通过使用两个单词各自的出现频率之间的差水平DT(wi和wj),选择部件220获得表示一个重要单词的出现频率与复合词候选wall中每个不同单词的出现频率之间的差的Dall。表示单词(排除重要单词)数量的m-1被用于规格化。基于以下等式(4)计算Dall。
[等式4]
根据上述等式(4),选择部件220计算表示用于判断是否应将复合词候选提取为复合词的水平的评分。在该示例中,较低评分表示重要单词的出现频率的变化与每个不同单词的出现频率的变化相同步。
之后,基于复合词候选的评分,选择部件220判断重要单词的出现频率的变化是否与每个不同单词的出现频率的变化同步(步骤S240)。可将不同复合词候选用于该判断。例如,当获得各复合词候选的评分后,选择部件220按照评分的升序选择一定数量的复合词候选。可将每个所选复合词候选判断为具有与它们中的每个不同单词相同步的变化。在重要单词的出现频率变化与每个不同单词的出现频率变化相同步的条件下(步骤S240:是),选择部件220将该复合词候选选作复合词(步骤S250)。在图3至5所示示例中,虽然单词“bird”的出现频率的变化与重要单词“flu”的出现频率的变化相同步,但不能判断单词“problem”的出现频率的变化与“flu”的出现频率的变化相同步。
因此,不是将“bird flu problem”,而是将“bird flu”选择为复合词。
在不采用上述处理的情况下,选择部件220通过基于各个单词出现频率在每个季节或每段时间段中如何变化来生成时序数据,可以判断各个单词的出现频率彼此是否同步。具体而言,例如,选择部件220按某个时间段(例如,一年、一个月或一天)将获得的时序数据划分成多个数据段。之后,基于划分的时序数据段,选择部件220获得在预定时间段中各相应单词的出现频率的变化。然后,选择部件220基于在预定时间段内各相应单词的频率的变化彼此是否同步,来选择是否将复合词候选提取为复合词。该方法使得能够准确地提取出如在特定季节和时间段频繁使用的复合词。
另一方面,在复合词候选不包含重要单词的条件下(步骤S210:否),计算部件210从文献中搜索复合词候选和包含在复合词候选中的单词。之后,计算部件210计算在第二文本中复合词候选的出现频率随时间的变化和在第二文本中复合词候选包含的每个单词的出现频率随时间的变化(步骤S260)。例如,当其中一个复合词候选为“trainexplosion accident”时,计算部件210计算其复合词候选“train explosionaccident”的出现频率随时间的变化,并计算复合词“train explosionaccident”中包含的每个单词“train”、“explosion”、“accident”的出现频率随时间的变化。图6至8表示出在文献中实际获得的各出现频率。
图6是表示短语“train explosion accident”的出现频率的时序数据。计算部件210计算出在短语“train explosion accident”出现的每个时间段中该短语在文献数据库25的文献中出现的频率,从而,获得如图6所示的时序数据。在时序数据中,单词“train explosion accident”的出现频率从四月到五月显著升高,在其他时间段接近于零。
图7是表示在短语“train explosion accident”中包含的单词“train”的出现频率的时序数据。计算部件210计算在单词“train”出现的每个时间段中,该单词在文献数据库25的文献中出现的频率,从而获得如图7所示的时序数据。在时序数据中,单词“train”的出现频率从四月到五月升高,在五月和十月特定时间段也升高。此外,在其他时间段,该频率稳定变化。
图8是表示在短语“train explosion accident”中包含的单词“explosion”的出现频率的时序数据。计算部件210计算在单词“explosion”出现的每个时间段中,该单词在文献数据库25的文献中出现的频率,从而获得如图8所示的时序数据。在时序数据中,单词“explosion”的出现频率在一月和十一月升高。此外,在其他时间段,单词“explosion”的出现也相对频繁。
图9是表示在短语“train explosion accident”中包含的单词“accident”的出现频率的时序数据。计算部件210计算在单词“accident”出现的每个时间段中,该单词在文献数据库25的文献中出现的频率。作为计算结果,计算部件210获得如图9所示的时序数据。在时序数据中,单词“accident”的出现频率在三月显著升高。它在一月、七月和十一月中的特定时间段升高。此外,在其他时间段中,单词“explosion”的使用相对频繁。
此处,将再次参照图2进行描述。随后,选择部件220计算出表示用于确定是否将复合词候选提取为复合词的水平的评分。基于在时序数据中复合词候选的出现频率变化与在复合词候选中包含的各相应单词的出现频率变化是否同步,计算评分(步骤S270)。可将在步骤S230中所述的方法应用到计算评分的方法。例如,选择部件220可使用等式(4)计算显示出复合词候选与组成该复合词候选的每个单词之间的同步的评分,而不采用计算表示重要单词与不同单词之间的同步的评分的处理。
之后,基于复合词候选的评分,选择部件220判断复合词候选的出现频率的变化与组成该复合词候选的每个单词的出现频率的变化是否同步(步骤S280)。在所述变化彼此不同步的条件下(步骤S280:否),选择部件220将该复合词候选选作复合词(步骤S290)。在图7至9所示示例中,复合词候选“train explosion accident”的出现频率的变化与各相应单词“train”、“explosion”和“accident”的出现频率的任何变化不同步。因此,将复合词候选“train explosion accident”提取为复合词。输出部件230将所选复合词输出到文本检索设备30。
图10表示本发明实施例的文本检索设备30检索第三文本的处理流程图。在文本检索设备30中,除事先设置的短语外,将复合词提取设备20向文本检索设备30通知的复合词设置为标题词。首先,检索部件320从通信网络35检索出均包含标题词的第三文本,然后,将第三文本存储在存储部件300中(步骤S300)。随后,输入部件310判断是否接收到来自用户的搜索关键词的输入(步骤S310)。
一旦输入搜索关键词(步骤S310:是),则检索部件320判断搜索关键词是否为任何标题词(步骤S320)。当搜索关键词不是任何标题词时(步骤S320:否),检索部件320从通信网络35检索均包含搜索关键词的第三文本,然后,将第三文本输出(步骤S340)。当搜索关键词是任何标题词时(步骤S320:是),检索部件320从存储部件300读出存储在存储部件320中的与该搜索关键词相关联的第三文本,然后,将该第三文本输出(步骤S330)。
输入部件310可接收多个搜索关键词的输入。在此情形中,一旦输入该多个搜索关键词,检索部件320根据用户设置例如从通信网络35检索均包含该搜索关键词的第三文本。除该处理外,检索部件320也可执行以下处理。在该处理中,检索部件320判断包含输入到输入部件310的多个搜索关键词的复合词是否已被选择部件220选中(步骤S350)。具体而言,当输入搜索关键词“bird”和“flu”时,可将搜索关键词组合,以获得复合词“bird flu”。因此,满足了条件。
在选择部件220已选择包含输入到输入部件310的多个搜索关键词的复合词的条件下(步骤S350:是),除均包含这些搜索关键词的第三文本之外,检索部件320还从通信网络35检索均包含复合词的第三文本(步骤S360)。之后,检索部件320按照例如在屏幕上显示结果的方式输出检索结果(步骤S370)。
图11表示显示本发明实施例的检索部件320所输出的检索结果的示例。在该显示示例中,在屏幕的上部显示搜索关键词输入栏。在输入栏,显示单词“bird”和“flu”。当输入搜索关键词时,搜索部件320搜索均包含由搜索关键词的组合构成的复合词的第三文本,并且搜索均包含搜索关键词的第三文本。
在屏幕上显示搜索结果。在图11的示例中,具体而言,显示均包含复合词“bird flu”的网页的URL。此外,也显示均包含单词“bird”和“flu”的网页的URL。如同图11的示例,搜索部件320可以比均包含搜索关键词而不是复合词的文本更优先地显示均包含复合词的文本(例如,在上部输入栏中)。因而,可以比均只包含搜索关键词的文本更优先地显示与搜索关键词高度相关的文本。从而,可增强用户的可用性。
图12表示作为复合词提取设备20或文本搜索设备30的信息处理设备500的硬件配置示例。信息处理设备500包含CPU外围部件,I/O部件和常规I/O部件。CPU外围部件包括:CPU 1000、RAM 1020和图形控制器1075,所有这些都通过主控制器1082彼此连接。I/O部件包括:通信接口1030;硬盘驱动器1040;和CD-ROM驱动器1060,它们均通过I/O控制器1084与主控制器1082连接。常规I/O部件包括:BIOS 1010;软盘驱动器1050;和I/O芯片1070,它们均与I/O控制器1084连接。
主控制器1082将RAM 1020与CPU 10000和图形控制器1075相连接,CPU 10000和图形控制器1075能够以高传输速率访问RAM1020。CPU 1000基于存储在BIOS 1010和RAM 1020中的程序控制每一部分。图形控制器1075获得由CPU 1000等在RAM 1020中提供的帧缓冲器中产生的图像数据。然后,图形控制器1075在显示设备1080上显示图像数据。或者,图像控制器1075中可包含帧缓冲器,用于存储由CPU 1000等产生的图像数据。
I/O控制器1084将主控制器1082与通信接口1030,硬盘驱动器1040和CD-ROM驱动器1060中的每一个连接,这些设备是以相对更较速率传输数据的I/O设备。通信接口1030通过网络与外部设备进行通信。硬盘驱动器1040存储为信息处理设备500所用的程序和数据。CD-ROM驱动器1060从CD-ROM 1095读取程序和数据,然后,将程序或数据提供给RAM 1020或硬盘驱动器1040。
此外,BIOS 1010和诸如软盘驱动器1050和I/O芯片1070之类的I/O设备(该I/O设备以相对较低速率传输数据)与I/O控制器1084连接。BIOS 1010存储有引导程序(当引导信息处理设备500时,由CPU1000执行该引导程序)和取决于信息处理设备5000的硬件的程序,等等。软盘驱动器1050从软盘1090读取程序或数据,然后将程序或数据提供给RAM 1020或硬盘驱动器1040。软盘驱动器1090和各个I/O设备通过并行端口、串行端口、键盘端口、鼠标端口等与I/O芯片1070连接。
由用户提供给信息处理设备500的程序存储在诸如软盘1090、CD-ROM 1095和IC卡之类的记录介质中。通过I/O芯片1070和/或I/O控制器1084从记录介质读取程序。之后,将程序安装在信息处理设备500中,然后执行该程序。程序使信息处理设备500执行与参照图1到11所描述的复合词提取设备20或文本检索设备30的操作相同的操作。为此,将省略对信息处理设备500的操作描述。注意,用于使信息处理设备500作为文本检索设备30的程序例如为称作“搜索引擎”的搜索软件。同样,使信息处理设备500作为复合词提取设备20的程序为用于为这种搜索软件添加附加功能的附加程序。在此情形中,使单个信息处理设备500充当文本搜索设备30和复合词提取设备20。毫无疑问,这些方式包含在本发明权利要求的范围之内。
上面所述的程序可以存储在外部记录介质中。除软盘1090和CD-ROM 1095之外,也可使用诸如DVD或PD之类的光记录介质,诸如MD的磁光记录介质,磁带介质,诸如IC卡之类的半导体存储器等作为这类记录介质。此外,可使用提供给与专用通信网络或Internet连接的服务器系统的诸如硬盘或RAM的存储设备作为记录介质。通过使用这类记录设备,可通过网络将程序提供给信息处理设备500。
如上所述,本实施例的复合词提取设备20可提高复合词的提取准确度,这是因为并非基于单词的出现频率,而是基于出现频率随时间的变化来提取复合词。为提取复合词,文献中各文本的写入日期是必要的。在近年来开发的在Internet上的公告牌等中,很容易对这类信息进行收集,并且该信息与现有技术高度兼容。另外,本实施例的文本检索设备30使用高准确度地检测的复合词作为用于文本检索的标题词。这样可使文本检索处理有效,并可提高文本检索准确度。
如上所述,已经通过本发明的实施例描述了本发明。不过,本发明的技术领域不限于上述实施例。毫无疑问,本领域技术人员可针对上述实施例做出多种变型、改变和改进。从权利要求范围内的描述看,毫无疑问,做出这种改变或改进的实施例可包含在本发明的技术范围内。
Claims (18)
1.一种用于从多个文本提取复合词的系统,所述系统包括:
获得部件,其作为分析多个第一文本的结果而获得复合词候选;
计算部件,其从多个第二文本的每个中,搜索所述复合词候选中包含的每个单词,并且计算每个单词在第二文本中的出现频率;
选择部件,其基于在时序数据中各单词的出现频率变化是否彼此同步,选择是否将所述复合词候选提取为复合词,所述时序数据分别表示按照第二文本的公开时间的顺序排列的每个单词的出现频率。
2.根据权利要求1的系统,其中,
选择部件基于在各表示每个单词出现频率的时序数据中,在多个复合词候选的每个复合词候选中包含的各单词的出现频率变化是否彼此同步,来计算每个复合词候选的评分,其中,所述评分表示用于确定是否将该复合词候选提取为复合词的水平,以及
选择部件根据各复合词候选的评分,将复合词候选选择为复合词。
3.根据权利要求1的系统,其中,在复合词候选包含预先指定的单词的情况下,在该预先指定的单词的出现频率的变化与该复合词候选中包含的不同单词的出现频率的变化相同步的条件下,选择部件将该复合词候选选择作为复合词。
4.根据权利要求1的系统,其中,在复合词候选包含出现频率在预定上限之下和预定下限之上的范围内变化的中间频率单词的情况下,在该中间频率单词的出现频率的变化与该复合词候选中包含的不同单词的出现频率的变化相同步的条件下,选择部件将该复合词候选选择作为复合词。
5.根据权利要求4的系统,其中,在该中间频率单词与包含在该复合词候选中的不同单词具有该中间频率单词被该不同单词修饰的关系的情况下,在该中间频率单词的出现频率的变化与该复合词候选中包含的该不同单词的出现频率的变化相同步的条件下,选择部件将该复合词候选选择作为复合词。
6.根据权利要求1的系统,其中,
在包含在复合词候选中的多个单词均未预先指定,并且中间频率单词具有在预定上限之下和预定下限之上的范围内变化的出现频率的条件下,
计算部件在该多个第二文本的每个第二文本中搜索该复合词候选,并且还计算该复合词候选在每个第二文本中的出现频率,以及
基于在各表示按照第二文本的公开时间的顺序排列的复合词候选出现频率的时序数据中复合词候选出现频率变化是否与在表示按照第二文本的公开时间的顺序排列的单词出现频率的时序数据中各单词的每个的出现频率的变化彼此同步,选择部件选择是否将该复合词候选提取为复合词。
7.根据权利要求1的系统,其中,
选择部件将关于每个单词的时序数据划分成均对应于一定时间段的多个数据段,
通过使用各单词的所划分的数据段,选择部件计算出在该一定时间段中各单词的出现频率的变化,并且
选择部件基于在该一定时间段中相应单词的各出现频率的变化是否彼此同步,选择是否将该复合词候选提取为复合词。
8.根据权利要求1的系统,还包括文本检索设备,所述文本检索设备包括:
存储部件,其预先从供检索的多个目标第三文本中检索出包含预先设置的多个标题词的第三文本,并且在其中与每个标题词相关联地存储所述第三文本;
输入部件,其接收用于检索第三文本的关键词的输入;和
检索部件,其在输入关键词为任何所述标题词的条件下,不是执行从供检索的目标第三文本中检索包含该关键词的第三文本的处理,而是从存储部件中读出与每个标题词相关联的第三文本,
在所述系统中,选择部件设置所选复合词作为任何所述标题词,并且使文本检索设备预先检索包含该复合词的第三文本,并将该第三文本存储在存储部件中。
9.根据权利要求1的系统,还包括:
输出部件,其将由选择部件选择作为多个标题词中的任何标题词的复合词输出到文本检索设备,所述文本检索设备包括:
存储部件,其预先从供检索的多个目标第三文本中检索出包含预先设置的标题词的第三文本,并且在其中与每个所述标题词相关联地存储所述第三文本;
输入部件,其接收用于检索第三文本的关键词的输入;和
检索部件,其在输入关键词为任何所述标题词的条件下,不是执行从供检索的目标第三文本检索包含该关键词的第三文本的处理,而是从存储部件读出与每个所述标题词相关联的第三文本。
10.根据权利要求1的系统,还包括文本检索设备,所述文本检索设备包括:
输入部件,其接收用于检索第三文本的关键词的输入;和
检索部件,其在输入多个关键词并且选择部件已选择复合词的条件下,除检索具有包括该多个输入关键词的复合词的第三文本外,从供检索的多个目标第三文本中检索包含该多个输入关键词中每个关键词的第三文本。
11.根据权利要求10的系统,其中,优先于包含该多个输入关键词的第三文本,检索部件输出包含该复合词的第三文本。
12.根据权利要求1的系统,还包括输出部件,用于将选择部件所选的复合词输出到文本检索设备,所述文本检索设备包括:
输入部件,其接收用于检索第三文本的关键词的输入;和
检索部件,其在输入多个关键词并且选择部件已选择复合词的条件下,除检索具有包括该多个输入关键词中的每个关键词的第三文本外,从供检索的多个第三目标文本中检索包含具有该多个输入关键词的复合词的第三文本。
13.根据权利要求1的系统,其中,获得部件分析每个第一文本的语法,以判断各单词的词类,并且获得相继出现的多个名词的集合,以作为复合词候选。
14.一种用于从多个文本中提取复合词的系统,所述系统包括:
获得部件,其作为分析多个第一文本的结果而获得复合词候选;
计算部件,其在多个第二文本中搜索该复合词候选和在该复合词候选中包含的每个单词,并且分别计算所述复合词候选和单词在每个第二文本中出现的频率;以及
选择部件,其基于在表示按照第二文本的公开时间的顺序排列的复合词候选出现频率的时序数据中该复合词候选的出现频率变化是否与在表示按照第二文本的公开时间的顺序排列的单词出现频率的时序数据中每个所述单词的出现频率变化同步,选择是否将该复合词候选提取为复合词。
15.根据权利要求14的系统,其中,
选择部件基于在表示出现频率的时序数据中复合词候选的出现频率变化是否与在表示出现频率的时序数据中每个所述单词的出现频率变化同步,计算多个复合词候选的每个的评分,该评分表示用于确定是否将复合词候选提取为复合词的水平,以及
基于每个所述复合词候选的评分,选择部件选择要提取为复合词的复合词候选。
16.根据权利要求14的系统,其中,
在预先没有指定所述多个单词中的任何一个的条件下,
计算部件在多个第二文本的每个中搜索该复合词候选和在该复合词候选中包含的各单词,并且分别计算复合词候选和单词在每个第二文本中的出现频率,并且
基于在表示按照第二文本的公开时间的顺序排列的复合词候选出现频率的时序数据中该复合词候选的出现频率变化是否与在表示按照第二文本的公开时间的顺序排列的单词出现频率的时序数据中每个所述单词的出现频率变化同步,选择部件选择是否将该复合词候选提取为复合词。
17.根据权利要求14的系统,其中,在复合词候选中包含的多个单词都不是出现频率在预定上限之下和预定下限之上的范围内变化的中间频率单词的条件下,
计算部件在多个第二文本的每个中搜索复合词候选和在复合词候选中包含的单词,并且计算复合词候选和单词各自在每个第二文本中的出现频率;以及
选择部件基于在表示按照第二文本的公开时间的顺序排列的复合词候选出现频率的时序数据中复合词候选的出现频率变化是否与在表示按照第二文本的公开时间的顺序排列的单词出现频率的时序数据中各单词的出现频率变化同步,选择是否要将复合词候选提取为复合词。
18.一种用于从多个文本提取复合词的方法,所述方法包括:
作为对多个第一文本进行分析的结果,获得复合词候选;
关于包含在复合词候选中的每个单词搜索多个第二文本的每个,并且计算每个单词在每个第二文本中的出现频率;
基于在时序数据中各单词的出现频率变化是否彼此同步,选择是否将所述复合词候选提取为复合词,所述时序数据分别表示按照第二文本的公开时间的顺序排列的单词的出现频率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006082026A JP4236057B2 (ja) | 2006-03-24 | 2006-03-24 | 新たな複合語を抽出するシステム |
JP2006082026 | 2006-03-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101093504A CN101093504A (zh) | 2007-12-26 |
CN100568242C true CN100568242C (zh) | 2009-12-09 |
Family
ID=38534634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007100881254A Expired - Fee Related CN100568242C (zh) | 2006-03-24 | 2007-03-15 | 用于提取新复合词的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070225968A1 (zh) |
JP (1) | JP4236057B2 (zh) |
CN (1) | CN100568242C (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140525B2 (en) * | 2007-07-12 | 2012-03-20 | Ricoh Company, Ltd. | Information processing apparatus, information processing method and computer readable information recording medium |
JP2009104296A (ja) * | 2007-10-22 | 2009-05-14 | Nippon Telegr & Teleph Corp <Ntt> | 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
US8812508B2 (en) * | 2007-12-14 | 2014-08-19 | Hewlett-Packard Development Company, L.P. | Systems and methods for extracting phases from text |
US8190477B2 (en) * | 2008-03-25 | 2012-05-29 | Microsoft Corporation | Computing a time-dependent variability value |
JPWO2010055663A1 (ja) * | 2008-11-12 | 2012-04-12 | トレンドリーダーコンサルティング株式会社 | 文書解析装置および方法 |
JP5066147B2 (ja) * | 2009-08-18 | 2012-11-07 | 株式会社東芝 | 文書処理装置およびプログラム |
EP2488963A1 (en) * | 2009-10-15 | 2012-08-22 | Rogers Communications Inc. | System and method for phrase identification |
JP5990178B2 (ja) * | 2010-11-05 | 2016-09-07 | 楽天株式会社 | キーワード抽出に関するシステム及び方法 |
CN103678318B (zh) * | 2012-08-31 | 2016-12-21 | 富士通株式会社 | 多词单元提取方法和设备及人工神经网络训练方法和设备 |
US9355170B2 (en) | 2012-11-27 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Causal topic miner |
JP5979650B2 (ja) | 2014-07-28 | 2016-08-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
CN106569997B (zh) * | 2016-10-19 | 2019-12-10 | 中国科学院信息工程研究所 | 一种基于隐式马尔科夫模型的科技类复合短语识别方法 |
JP2018092367A (ja) * | 2016-12-02 | 2018-06-14 | 日本放送協会 | 関連語抽出装置及びプログラム |
CN107894979B (zh) * | 2017-11-21 | 2021-09-17 | 北京百度网讯科技有限公司 | 用于语义挖掘的复合词处理方法、装置及其设备 |
CN108681564B (zh) * | 2018-04-28 | 2021-06-29 | 北京京东尚科信息技术有限公司 | 关键词和答案的确定方法、装置和计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1295292A (zh) * | 1999-11-05 | 2001-05-16 | 国际商业机器公司 | 用于多语言万维网服务器的方法和系统 |
CN1314634A (zh) * | 2000-03-17 | 2001-09-26 | 索尼株式会社 | 文档转换方法、文档转换器、以及文档显示系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
JP2583386B2 (ja) * | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
JPH09128396A (ja) * | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
WO2002054265A1 (en) * | 2001-01-02 | 2002-07-11 | Julius Cherny | Document storage, retrieval, and search systems and methods |
US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
JP3813911B2 (ja) * | 2002-08-22 | 2006-08-23 | 株式会社東芝 | 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US7447627B2 (en) * | 2003-10-23 | 2008-11-04 | Microsoft Corporation | Compound word breaker and spell checker |
-
2006
- 2006-03-24 JP JP2006082026A patent/JP4236057B2/ja not_active Expired - Fee Related
-
2007
- 2007-03-15 CN CNB2007100881254A patent/CN100568242C/zh not_active Expired - Fee Related
- 2007-03-26 US US11/681,170 patent/US20070225968A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1295292A (zh) * | 1999-11-05 | 2001-05-16 | 国际商业机器公司 | 用于多语言万维网服务器的方法和系统 |
CN1314634A (zh) * | 2000-03-17 | 2001-09-26 | 索尼株式会社 | 文档转换方法、文档转换器、以及文档显示系统 |
Also Published As
Publication number | Publication date |
---|---|
JP4236057B2 (ja) | 2009-03-11 |
CN101093504A (zh) | 2007-12-26 |
JP2007257390A (ja) | 2007-10-04 |
US20070225968A1 (en) | 2007-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100568242C (zh) | 用于提取新复合词的系统和方法 | |
KR101122869B1 (ko) | 펜-기반 컴퓨팅 시스템에서의 주석 관리 | |
CN102722498B (zh) | 搜索引擎及其实现方法 | |
US8250053B2 (en) | Intelligent enhancement of a search result snippet | |
US20080071739A1 (en) | Using anchor text to provide context | |
CN109918555B (zh) | 用于提供搜索建议的方法、装置、设备和介质 | |
WO2009096523A1 (ja) | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム | |
CN102722501B (zh) | 搜索引擎及其实现方法 | |
KR100892842B1 (ko) | 사용자 중심 정보탐색 방법 및 시스템 | |
CN102722499B (zh) | 搜索引擎及其实现方法 | |
JP2004280661A (ja) | 検索方法及びプログラム | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
US20070061322A1 (en) | Apparatus, method, and program product for searching expressions | |
JP4299963B2 (ja) | 意味的まとまりに基づいて文書を分割する装置および方法 | |
CN110888990A (zh) | 文本推荐方法、装置、设备及介质 | |
CN101950288A (zh) | 信息处理装置、信息处理方法及程序 | |
US8799257B1 (en) | Searching based on audio and/or visual features of documents | |
CN111475725A (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
JP2007193697A (ja) | 情報収集装置,情報収集方法およびプログラム | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
CN101894158B (zh) | 一种智能检索系统 | |
CN104156458A (zh) | 一种信息的提取方法及装置 | |
Sato et al. | Estimating contemporary relevance of past news | |
Bischoff et al. | Automatically identifying tag types | |
Jatowt et al. | Document in Context of its Time (DICT) Providing Temporal Context to Support Analysis of Past Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091209 Termination date: 20110315 |