CN103282903B - 话题提取装置及其方法 - Google Patents

话题提取装置及其方法 Download PDF

Info

Publication number
CN103282903B
CN103282903B CN201280004293.XA CN201280004293A CN103282903B CN 103282903 B CN103282903 B CN 103282903B CN 201280004293 A CN201280004293 A CN 201280004293A CN 103282903 B CN103282903 B CN 103282903B
Authority
CN
China
Prior art keywords
topic
word
document
mentioned
during
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280004293.XA
Other languages
English (en)
Other versions
CN103282903A (zh
Inventor
岩崎秀树
后藤和之
松本茂
宫部泰成
小林干门
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN103282903A publication Critical patent/CN103282903A/zh
Application granted granted Critical
Publication of CN103282903B publication Critical patent/CN103282903B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

根据实施方式,话题提取装置具备话题提取单元、话题提示单元。上述话题提取单元具备单词提取单元和话题词提取单元。上述单词提取单元从对象文书集合中提取各单词,计算该各单词的出现频度和该各单词出现的文书频度。上述话题词提取单元针对上述提取的各单词,取得上述对象期间中的出现文书的文书集合,计算表示与话题词的接近性的尺度即话题度,提取上述话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度。上述话题提示单元按照上述新鲜度的顺序提示上述提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数。

Description

话题提取装置及其方法
技术领域
本发明的实施方式涉及一种话题提取装置和程序。
背景技术
近年来,伴随着计算机的高性能化、存储介质的大容量化、计算机网络的普及等,大量电子化的文书日益流通,能够在计算机系统上利用。在此所说的文书例如是指新闻报道、电子邮件、网页这样的在网络上共享的文书等。另外,在此所说的文书也指在各个企业内利用的文书(例如产品的不合格信息、来自顾客的咨询信息等)。
一般有希望从这些文书的新闻报道或博客等中了解最近关注的话题的需求。同样,在企业中希望从日益积累的产品的不合格信息中找到当前正在增加的问题来得到早期对策的需求、希望从来自顾客的咨询信息中找到新的需要而在商品规划中有效利用的需求变大。
针对这些需求,例如在现有的话题提取方式中,针对指定期间的文书集合所包含的单词,根据出现频度进行给分,进行话题词的提取和阶层化。另外,在现有的话题提取方式中,保存话题词的得分的履历信息,根据与上次提取时的得分的差,提示“新到”等状态。
现有技术文献
专利文献
专利文献1:日本专利第4234740号公报
专利文献2:日本专利第4342575号公报
非专利文献
非专利文献1:藤木稔明、南野朋之、鈴木泰裕、奥村学、「document streamにおけるburstの発見」、情報処理学会研究報告、2004-NL-160,pp.85~92,2004年
发明内容
发明要解决的课题
以上那样的现有的话题提取方式通常没有任何问题,但根据本发明人的研究,有进一步改进的余地。
例如在现有的话题提取方式中,使用了根据话题词的得分的履历信息提示“新到”等状态的方法。但是,该方法以定点观测方式面向了解“现在”的话题的用途,但对于了解一周、一个月这样的一定期间中的话题的变迁的用途并不充分。
本发明要解决的课题是提供一种话题提取装置和程序,其在指定的对象期间中能够提示话题的变迁。
用于解决课题的手段
实施方式的话题提取装置具备文书存储单元、期间指定单元、话题提取单元、话题提示单元。
上述文书存储单元存储由具有文本信息和日期时间信息的多个文书构成的对象文书集合。
上述期间指定单元接受成为话题提取的对象的对象期间的指定。
上述话题提取单元从存储在上述文书存储单元中的对象文书集合中,提取表示接受了上述指定的对象期间中的话题的单词即话题词,并且针对各话题词计算表示时事性的尺度即新鲜度。
上述话题提示单元按照上述新鲜度的顺序提示通过上述话题提取单元提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数。
上述话题提取单元具备单词提取单元和话题词提取单元。
上述单词提取单元从存储在上述文书存储单元中的对象文书集合中提取各单词,分别计算该各单词的出现频度和表示该各单词出现的文书数的文书频度。
上述话题词提取单元针对通过上述单词提取单元提取的各单词,取得上述对象期间中的该单词出现的出现文书的文书集合,根据表示该出现文书的出现频度的显著性的值、基于上述单词的出现频度和上述文书频度的该单词的加权值,计算表示与话题词的接近性的尺度即话题度,提取上述话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度。
附图说明
图1是表示第一实施方式的话题提取装置的结构的框图。
图2是表示该实施方式中的文书数据的例子的示意图。
图3是表示该实施方式中的指定画面的例子的示意图。
图4是表示该实施方式中的话题提示画面的例子的示意图。
图5是表示该实施方式中的单词文书表的例子的示意图。
图6是表示该实施方式中的单词期间表的例子的示意图。
图7是表示该实施方式中的话题词表的例子的示意图。
图8是表示该实施方式中的处理的整体的流程的流程图。
图9是表示该实施方式中的单词提取处理的流程的流程图。
图10是表示该实施方式中的话题提取处理的流程的流程图。
图11是表示该实施方式中的话题提示处理的流程的流程图。
图12是表示第二实施方式的话题提取装置的结构的框图。
图13是表示该实施方式中的话题词表的例子的示意图。
图14是表示该实施方式中的处理的整体的流程的流程图。
图15是表示该实施方式中的话题词汇总处理的流程的流程图。
图16是表示该实施方式中的话题提示画面的例子的示意图。
图17是表示第三实施方式的话题提取装置的结构的框图。
图18是表示该实施方式的话题词表的例子的示意图。
图19A是表示该实施方式中的话题词的阶层的例子的示意图。
图19B是表示该实施方式中的话题词的阶层的例子的示意图。
图20是表示该实施方式中的处理的整体的流程的流程图。
图21是表示该实施方式中的话题词阶层提取处理的流程的流程图。
图22是表示该实施方式中的话题提示处理的流程的流程图。
图23是表示该实施方式中的话题提示画面的例子的示意图。
图24是表示第四实施方式的话题提取装置的结构的框图。
图25是表示该实施方式中的话题词表的例子的示意图。
图26A是表示该实施方式中的话题词的阶层的例子的示意图。
图26B是表示该实施方式中的话题词的阶层的例子的示意图。
图27是表示该实施方式中的处理的整体的流程的流程图。
图28是表示该实施方式中的话题提示画面的例子的示意图。
图29是表示第五实施方式的话题提取装置的结构的框图。
图30是表示该实施方式中的单词期间表的例子的示意图。
图31是表示该实施方式中的处理的整体的流程的流程图。
图32是表示该实施方式中的突发期间提取处理的流程的流程图。
图33是表示该实施方式中的处理的话题提示处理的流程的流程图。
图34是表示该实施方式中的话题提示画面的例子的示意图。
图35是表示第六实施方式的话题提取装置的结构的框图。
图36是表示该实施方式中的处理的整体的流程的流程图。
图37是表示该实施方式中的话题提示画面的例子的示意图。
图38是表示第七实施方式的话题提取装置的结构的框图。
图39是表示该实施方式中的处理的整体的流程的流程图。
图40是表示该实施方式中的处理的话题提示处理的流程的流程图。
图41是表示该实施方式中的话题提示画面的例子的示意图。
图42是表示第八实施方式的话题提取装置的结构的框图。
图43是表示该实施方式中的处理的整体的流程的流程图。
图44是表示该实施方式中的话题提示画面的例子的示意图。
具体实施方式
以下,使用附图说明各实施方式,但在此之前,列举表示在各实施方式中使用的主要标记。
SPN:期间(开始日期时间from、结束日期时间to)。
BST:突发期间(第四实施方式~第八实施方式)。
D:对象文书集合。
Dspn:在对象文书集合D中,包含在某期间SPN中的文书的集合(其中,)。另外,在对象文书集合D中,针对包含在突发期间BST中的文书的集合,表示为Dbst(其中,)。这样,在使用突发期间BST的情况下,在实施方式中记载的“SPN”或尾标“spn”分别改称为“BST”或尾标“bst”。
Docs:在对象文书集合D中,包含在某期间SPNi中的文书的集合Dspni和包含在某期间SPNj中的文书的集合Dspnj的并集(Docs=Dspni∪Dspnj)。另外,在使用突发期间BSTi、BSTj的情况下,并集Docs可以改称为Docs=Dbsti∪Dbstj。
|Docs|:包含在文书集合Docs中的文书数。
f(term,d):文书d中的单词term的出现数。
df(term,Docs):文书集合Docs中的包含单词term的文书的文书数。
tf(term,Docs):文书集合Docs中的单词term的出现数。
tc(Docs):包含在文书集合Docs中的单词的合计数。
time(d):文书d的出现日期时间。
TD(term,Docs):在文书集合Docs中包含单词term的文书的集合。
co(term1,term2,Docs):在文书集合Docs中单词term1和term2都出现了的文书的个数。
cospan(SPN1,SPN2):在期间SPN1和SPN2中共通的期间。另外,在使用了突发期间BST1、BST2的情况下,共通期间cospan(SPN1,SPN2)可以改称为共通期间cospan(BST1,BST2)。
|SPN|:期间SPN的长度。另外,突发期间BST的长度表示为|BST|。
ITVLS:向用户提示话题数据时的时间间隔的集合。
例如,在针对2010/05/01~2010/05/31提示每一日的出现数的情况下,时间间隔的集合ITVLS具有以下那样的值。
另外,举例说明通过时间间隔的集合ITVLS提示的期间与期间SPN的长度相同的情况,但并不限于此,也可以提示比期间的长度SPN长的期间。
以上是在各实施方式中使用的主要标记的说明。在各实施方式中,在各种值的计算等中使用这些主要标记。
另外,各实施方式涉及一种话题提取装置,其用于从电子化了的文书群中,根据包含在各个文书中的文本信息和日期时间信息提取话题。可以通过硬件结构、或硬件资源和软件的组合结构的任意一种来实现各实施方式的话题提取装置。作为组合结构的软件,如图1、图12、图17、图24、图29、图35、图38、图42所示那样,使用了以下的程序,其预先从网络或非暂时的计算机可读取的存储介质(non-transitory computer-readable storage medium)M安装在计算机中,使该计算机的处理器执行,由此使该计算机实现话题提取装置的功能。
<第一实施方式>
图1是表示第一实施方式的话题提取装置的结构的框图。文书存储部10是存储成为话题提取的对象的文书数据的单元。文书存储部10一般由文件系统、文书数据库等实现,但例如也可以由通过计算机网络连接的多个存储单元构成。在文书存储部10中,作为文书数据存储多个文书。如图2所示,各个文书数据具有文本信息、日期时间信息。
文书存储部10如图2所示,存储由具有文本信息(12、13)和日期时间信息(14)的多个文书(d)构成的对象文书集合D。各文书d具有唯一的识别符“文书ID”11。作为文本、即用日语、英语等自然语言描述的数据,各文书d具有“标题”12、“正文”13等文本信息。进而,如“发信日期时间”14那样,各文书d具有一个以上的日期时间属性(日期时间信息)。在话题提取装置中,根据该日期时间属性求出单词的新鲜度等。在各文书d具有多个日期时间属性的情况下,在执行话题提取时,也可以由用户指定使用哪个日期时间属性。
用户界面部20是接受成为话题提取的对象的期间的指定,提示后述的话题提取部30的话题提取的结果的单元。用户界面部由期间指定部21和话题提示部22构成。
期间指定部21是接收成为话题提取的对象的对象期间SPN的指定的单元,例如具有向话题提取部30发送接收了该指定的对象期间、话题提取的执行请求的功能。例如在期间指定部21中,如图3所示经由指定画面G1接受由用户指定的对象期间的输入,向话题提取部30发送该对象期间、话题提取部30的执行请求。
话题提示部22如图4所示例的话题提取画面G10那样,按照新鲜度的顺序提示由话题提取部30提取的话题词,并且针对该提示的各话题词,提示单位期间后的出现文书数。另外,新鲜度的顺序可以是升序和降序的任意一种。另外,单位期间是比指定的对象期间短的期间。
话题提取部30是从存储在文书存储部10中的对象文书集合D中,提取表示通过期间指定部21接受了指定的对象期间SPN中的话题的单词即话题词,并且针对各话题词计算表示时事性的尺度即新鲜度的单元。根据该新鲜度,通过话题提示部22实现提示,使得用户能够掌握话题词的时序的迁移。在第一实施方式中,由单词提取部31和话题词提取部33构成话题提取部30。
单词提取部31是从存储在文书存储部10中的对象文书集合D中提取各单词,分别计算该各单词的出现频度(tf(term,D))和表示该各单词出现的文书数的文书频度(df(term,D))的单元。详细地说,单词提取部31针对各个单词计算各文书d中的出现数,并且计算对象文书集合D全体中的单词频度、文书频度,如图5所示,生成单词文书表TDT。作为提取为话题词的单词的候选,如图6所示,以单词期间表TST的形式输出包含在单词文书表中的单词。在单词期间表TST中,针对各单词,对应地保存其对象期间。
单词文书表TDT如图5所示,针对包含在对象文书D中的各个单词,保存各文书中的出现数即“出现频度”TDT_f。另外,针对各个单词,保存对象文书集合D全体中出现的文书数即“文书频度”TDT_df、出现频度的合计即“单词频度”TDT_tf。单词文书表TDT作为话题提取部30的内部数据而保存,在后述的突发期间提取部32、话题词提取部33、话题词汇总部34、话题词阶层提取部35中使用。
单词期间表TST如图6所示,保存提取为话题词的单词的候选、该单词成为对象的期间。各单词具有唯一的标识符即“单词ID”TST_tid、该单词的记号即“单词”TST_t、该单词成为对象的期间即“期间”TST_spn。在此,在单词提取部31中,针对包含在单词文书表TDT中的全部单词,将从用户界面部20取得的对象期间设定为TST_spn。因此,TST_spn的值为“2010/05/01~2010/05/31”。另外,在后述的突发期间提取部32中也生成单词期间表TST。在突发期间提取部32中,在TST_spn中保存针对各单词提取出的突发期间。另外,将在后面详细说明突发期间提取部32。
话题词提取部33是针对通过单词提取部31提取的各单词,取得对象期间SPN中的该单词出现的出现文书的文书集合(TD(term,Dspn)),根据表示该出现文书的出现频度的显著性的值、基于单词的出现频度和文书频度的该单词的加权值,计算表示与话题词的接近性的尺度即话题度,提取话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度的单元。
例如,话题词提取部33使用单词文书表TDT和单词期间表TST来提取话题词。在该情况下,在话题词提取部33中,针对包含在单词期间表TST中的各个单词,计算对应的期间中的出现文书和文书频度、单词频度,使用这些频度信息和出现文书的日期时间信息,求出表示与话题词的接近性的话题度,根据该话题度提取话题词。进而,针对提取出的话题词,根据该出现文书的日期时间信息的序列,求出表示其时事性的新鲜度。另外,针对提取的话题词,生成图7所示那样的话题词表TWT。
话题词表TWT如图7所示,是由话题词提取部33生成而作为话题词提取部33的提取结果输出到话题词提示部22的数据。通过后述的话题汇总部34和话题词阶层提取部35更新话题词表TWT。在话题词提取部33中,存储话题词表TWT的列中的“单词ID”TWT_tid、“单词”TWT_t、“期间”TWT_spn、“出现文书”TWT_did、“文书频度”TWT_df、“单词频度”TWT_tf、“话题度”TWT_score、“新鲜度”TWT_fresh。“单词ID”TWT_tid、“单词”TWT_t以及“期间”TWT_spn是单词期间表TST中的“单词ID”TST_tid、“单词”TST_t、“期间”TST_spn的值。其中,保存在话题词单词表TWT中的单词TWT_t只是包含在单词期间表TST中的单词TST_t中的通过话题词提取部33判定为话题词的单词。话题词提取部33针对各个单词,取得在“期间”中出现的文书集合TD(term,Dspn)即“出现文书”、“出现文书”的文书数df(term,Dspn)即“文书频度”、“出现文书”的文书集合中的单词的出现频度tf(term,Dspn)即“单词频度”,存储在“出现文书”TWT_did、“文书频度”TWT_df、“单词频度”TWT_tf的各列中。进而,话题词提取部33计算根据这些信息计算出的、表示与话题词的接近性的尺度即“话题度”score(term,SPN)、表示该话题的时事性的尺度即“新鲜度”fresh(term,SPN),存储在“话题度”TWT_score和“新鲜度”TWT_fresh的各列中。
接着,使用图8~图11的流程图,说明以上那样构成的话题提取装置的动作。
用户界面部20内的期间指定部21如图8所示那样,接受来自用户的对象期间的指定(步骤S100),并且接受话题提取的执行请求(步骤S200)。对象期间的指定例如如图3所示,在指定画面G1中由用户设定对象期间的开始日期时间g1和结束日期时间g2。然后,期间指定部21与用户对“执行”按键g3的点击操作对应地,向话题提取部30发送对象期间SPN和话题提取的执行请求。
在指定画面G1中点击“执行”按键g3,发送出话题提取的执行请求的情况下,话题提取装置进行步骤S300~S800的处理(步骤S200-是)。
另一方面,在指定画面G1中对“取消”按键g4进行了点击操作的情况下,话题提取装置结束全体的处理(步骤S200-否)。
在发送了话题提取的执行请求的情况下(步骤S200-是),单词提取部31进行单词提取处理,即提取存储在文书存储部10中的对象文书集合D所包含的单词,求出各个单词出现的文书、出现频度等信息,生成单词文书表TWT和单词期间表TST(步骤S300)。另外,将在后面详细说明单词提取处理(步骤S300)。
接着,话题词提取部33进行话题词提取处理,即针对单词期间表TST中的各个单词,根据在该期间中该单词出现的文书、文书频度、出现频度等信息,进行单词的话题度计算(给分),提取话题词(步骤S500)。将在后面详细说明话题词提取处理。另外,将通过话题词提取处理(步骤S500)得到的频度信息、话题度、新鲜度等作为话题词表TWT保存在话题提取部30中。
另外,用户界面部2的话题提示部22进行话题提示处理,即从话题提取部30接收话题词表TWT,根据该话题词表TWT向用户提示提取结果(步骤S800)。另外,将在后面详细说明话题提示处理(步骤S800)。
图9是表示话题词提取部31的单词提取处理(步骤S300)的流程的流程图。
单词提取部31从期间指定部21接收对象期间SPN作为输入(步骤S301)。接着,单词提取部31从文书存储部10取得成为话题提取的对象的对象文书集合D(步骤S302),作成空的单词文书表TDT(步骤S303)。
接着,单词提取部31对包含在对象文书集合D中的全部文书的文本信息进行词素分析(步骤S304)。例如在图2所示的文书数据的情况下,如果将“标题”和“正文”的内容作为文本信息,则通过词素分析,提取“口蹄疫”、“宰杀处理”、“公务”、“宰杀”、“流行”等单词。另外,单词提取部31针对包含在词素分析结果中的全部单词term,重复进行步骤S306的处理(步骤S305)。在此,单词提取部31也可以根据是否是预定的词类的单词、或是否是不需要词,来缩小成为对象的单词的范围。例如,进行以下的单词的挑选,即将词类为名词、サ变名词、专有名词等的单词作为对象,而将接续词、副词等不作为对象。另外,例如在将新闻报道作为处理对象的情况下,“政治”、“经济”这样的单词是普通的单词,不表示话题,因此作为不需要词而除去。
在步骤S306中,单词提取部31重复进行以下的处理(步骤S307),即针对单词term,进而针对包含在文书集合D中的全部文书d,求出表示单词term在文书d中出现的次数的出现频度f(term,d),存储在单词文书表TDT中。
在步骤S307中,例如在图2所示的文书数据中,“口蹄疫”的出现频度f(“口蹄疫”,d001)=2。然后,单词提取部31针对图5所示的单词文书表TDT,针对与“口蹄疫”对应的行TDT_L1,作为文书ID=d001的出现频度TDT_f而存储“2”。
然后,单词提取部31在步骤S306的重复执行结束后,求出在对象文书集合D中单词term出现的文书数即文书频度df(term,D)、单词term的出现频度的合计即出现频度tf(term,D),分别存储在单词文书表TDT的“文书频度”TDT_df和“单词频度”TDT_tf中(步骤S308)。
在S305的重复执行结束后,单词提取部31进行步骤S309~步骤S311的处理。
开始,单词提取部31作成空的单词期间表TST(步骤S309),针对通过到步骤S308为止的处理作成的单词文书表所包含的全部单词term,重复进行步骤S311的处理(步骤S310)。
在步骤S311中,单词提取部31将单词term、在步骤S301中取得的对象期间SPN的组即单词期间数据TS={tid,term,SPN}存储在单词期间表TST中。在此,对于单词期间表,tid是唯一的单词ID。通过该步骤S310~步骤S311的处理,单词提取部31作成成为话题词提取的对象的单词数据的集合即单词期间表的初始数据TS。
图10是表示话题词提取部33的话题提取处理(步骤S400)的流程的流程图。
话题词提取部33取得单词文书表TDT和单词期间表TST(步骤S501),作成空的话题词表TWT(步骤S502)。
接着,话题词提取部33针对单词期间表TST中的全部单词期间数据TS,重复进行步骤S504~步骤S509的处理(步骤S503)。在此,单词期间数据TS是指{单词ID tid,单词term,期间SPN}的组、即(TS={tid,term,SPN})。通过该重复处理,话题词提取部33从单词期间数据TS中的单词中,提取与话题词符合的单词,并且将这时计算出的频度信息、话题度等统计信息保存为话题词表TWT。为此,话题词提取部33针对该单词期间数据TS的单词term,从单词文书表TDT中取得对象文书集合全体D中的“文书频度df(term,D)”TDT_df的列、“单词频度tf(term,D)”TDT_tf的列(步骤S504)。
接着,话题词提取部33从单词文书表TDT中,针对单词term出现的文书,在文书存储部10中参照日期时间信息,取得在期间SPN中单词term出现的文书的集合TD(term,Dspn)(步骤S505)。
接着,话题词提取部33针对单词term,根据单词文书表计算期间SPN中的文书频度df(term,Dspn)、单词频度tf(term,Dspn)(步骤S506)。
接着,话题词提取部33利用在步骤S504~S506中计算出的信息,针对单词term计算表示与该话题词的接近性的尺度即话题度score(term,SPN)、表示该话题的时事性的尺度即新鲜度fresh(term,SPN)(步骤S507)。
例如根据[数学式1]所示的式子计算话题度score(term,SPN)。
[数学式1]
score(term,SPN)=topical(term,SPN)×tfidf(term)
t o p i c a l ( t e r m , S P N ) = d f ( t e r m , D s p n ) - ( | D s p n | d f ( t e r m , D ) | D | ) | D s p n | d f ( t e r m , D ) | D |
t f i d f ( t e r m ) = t f ( t e r m , D ) t c ( D ) &CenterDot; log ( | D | d f ( t e r m , D ) )
在此,期间不均值topical(term,SPN)是表示全部文书集合D中的在期间SPN中的出现频度的显著性的值,越是集中在期间SPN中出现的单词则是越大的值。进而,加权值tfidf(term)是在文书分类、文书检索等中作为单词的权重而一般使用的指标。在话题度score(term,SPN)中,将该加权值tfidf(term)与期间不均值topical(term,SPN)相乘,由此存在话题性并且很好地表示该话题的单词成为高的话题度。另外,例如根据[数学式2]所示的式子计算新鲜度fresh(term,SPN)。
[数学式2]
f r e s h ( t e r m , S P N ) = ( t o - &Sigma; d &Element; T D ( t e r m , D s p n ) ( t o - t i m e ( d ) ) d f ( t e r m , D s p n ) ) &CenterDot; 1 ( t o - f r o m )
另外,例如也可以将对文书d的出现时刻time(d)取平均所得的平均出现时刻设为Td,如下所示那样计算新鲜度fresh(term,SPN)。
f r s h ( t e r m , S P N ) = ( T d - f r o m ) &CenterDot; 1 ( t o - f r o m )
T d = &Sigma; d &Element; T D ( t e r m , D s p n ) t i m e ( d ) d f ( t e r m , D s p n )
新鲜度fresh(term,SPN)表示期间SPN中的单词term的出现时间的平均,为0≤fresh(term,SPN)≤1的值。对于期间SPN(开始日期时间from,结束日期时间to),单词term越是集中在结束日期时间to出现,则新鲜度fresh(term,SPN)的值越是接近1,表示该单词所表示的话题是新鲜的。此外,作为单词的话题度,也可以使用将该新鲜度fresh(term,SPN)乘以数学式1所示的话题度score(term,SPN)所得的值。在该情况下,在期间SPN中,重视最近涌现的话题而提取话题词。
接着,话题词提取部33根据score(term,SPN)>α这样的式子,判定单词term是否是话题词(步骤S508)。在此,α是用于判定该单词term作为话题词是否合适的阈值,可以在话题提取装置中事先设定,也可以在每次话题提取的处理时由用户设定。
在判定为话题词的情况下(步骤S508-是),话题词提取部33将该单词作为话题词,将计算出的统计信息追加到话题词表TWT中(步骤S509)。在此,在将某单词term判定为话题词的情况下,话题词提取部33针对图7的话题词表TWT,分别将单词期间数据TS中的“单词ID”TST_id、“单词”TST_t、“期间”TST_spn的值保存在“单词ID”TWT_tid、“单词”TWT_t、“期间”TWT_spn中。另外,话题词提取部33分别将通过步骤S505~S507计算出的文书集合TD(term,Dspn)、文书频度df(term,Dspn)、单词频度tf(term,Dspn)、话题度score(term,SPN)、新鲜度(term,SPN)保存在出现文书TWT_did、“文书频度”TWT_df、“单词频度”TWT_tf、“话题度”TWT_score、“新鲜度”TWT_fresh中。
图11是表示话题提示部22的话题提示处理(步骤S800)的流程的流程图。
话题提示部22从用户接受用于显示的时间间隔的指定,作成时间间隔的集合ITVLS(步骤S801)。假设在指定对象期间(步骤S100)时,在图3所示的指定画面G1的“显示间隔”g5中,由用户进行时间间隔的指定。话题提示部22针对通过指定画面G1被用户指定的“期间”,作成划分为每个“显示间隔”的时间间隔ITVLS。例如在向指定画面G1的“期间”输入了“2010/05/01~2010/05/31”,向显示间隔输入了“日”的情况下,话题提示部22如下所示那样作成时间间隔ITVLS。
另外,在时间间隔的集合ITVLS中,也可以由用户指定任意的时间间隔。接着,话题提示部22如图4所示那样,将时间间隔的集合ITVLS的各要素的内容显示在提示画面G10的最终行中。在图4的例子中,如“10年5月1日”、“10年5月2日”、……、“10年5月31日”那样简化地显示时间间隔的集合ITVLS的各要素。
接着,话题提示部22从话题提取部30取得话题词表TWT,将包含话题词表TWT内的话题词数据作为要素的话题词数据的集合设为TWS(步骤S804)。
接着,话题提示部22根据“新鲜度”TWT_fresh对话题词数据集合TWS的要素进行排序(步骤S805)。由此,按照时序顺序排序话题词。
接着,话题提示部22直到话题词数据集合TWS为空为止,重复进行步骤S807~S814的处理(步骤S806)。首先,话题提示部22将话题词数据集合TWS中的位于开头的话题词数据设为p(步骤S807)。
接着,话题提示部22顺序地将未显示的话题词数据插入到话题词数据集合TWS中的开头的话题词数据p的位置(步骤S810)。在步骤S810中,话题提示部22在删除了话题词数据集合TWS中的已经显示的话题词数据p的基础上,按照在步骤S805中排序了的顺序,将话题词数据的集合TWS中的话题词数据插入到p的位置。
然后,话题提示部22通过步骤S811~S814的处理,将话题词数据p的信息显示在话题提示画面G10中。为此,话题提示部22向话题提示画面G10追加行(步骤S811),在追加了的行的开头列显示话题词数据p的“单词”(步骤S812)。
接着,话题提示部22针对话题词数据p的“出现文书”的各个文书d,参照文书存储部10,取得出现日期时间time(d)(步骤S813)。话题提示部22针对ITVLS中的各期间ITVL对取得的各文书的出现日期时间time(d)进行计数,由此针对各期间ITVL取得包含话题词数据p的单词term的文书的出现频度,在相应列中显示该出现频度(步骤S814)。在出现频度的显示时,使用数值、直方图、折线图等。由此,针对该话题词数据的行,在话题提示画面G10中显示文书d的出现频度。
这样,话题提示部22直到TWS成为空为止重复进行步骤S807~S814的处理,由此在根据新鲜度按照时序顺序对话题词表TWT中的全部话题词数据进行排序的同时,显示在话题词提示画面G10中。
如上述那样,根据本实施方式,针对提取的各单词,提取表示与话题词的接近性的话题度为预定值以上的单词作为话题词,并且针对该提取的话题词根据该对象期间中的出现日期时间计算新鲜度,按照新鲜度的顺序提示提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数,通过该结构,针对对象文书集合,能够提示被指定的对象期间中的话题。特别通过基于新鲜度的排序、各话题词在每个单位时间中的出现文书数的提示,能够与其涌现状况一起提示话题的时间性迁移。例如如图4所示,能够从在对象期间中最近开始被关注的话题开始,提示稍前涌现的话题、长期被关注的话题这样的话题的整体迁移。
接着,通过以下的各实施方式,说明向在第一实施方式中说明了的处理(步骤S100~S300、S500、S800)追加话题词汇总处理(步骤S600)、话题词阶层提取处理(步骤S700)以及突发期间提取处理(步骤S400)中的一个以上的处理的情况。另外,可以分别独立地追加各处理(步骤S400、S600、S700)(在功能上没有依存关系)。但是,在追加的情况下,需要按照步骤编号从小到大的顺序进行处理(在处理顺序上有依存关系)。
以下,顺序地根据第二实施方式~第八实施方式进行说明。
<第二实施方式>
图12是表示第二实施方式的话题提取装置的结构的框图,对于与图1相同的部分附加相同的符号并省略详细的说明,在此主要说明变更了的部分(用虚线围住的部分)。以下的各实施方式也同样地省略重复的部分的说明。
本实施方式是第一实施方式的变形例,还具备话题汇总部34。
在此,话题汇总部34是针对由话题词提取部33提取的话题词(term i,term j),根据对象期间中的出现文书(Dspn i、Dspn j)、该出现文书的出现频度(df(term i,docs)、df(term j,docs))、日期时间信息(SPN1、SPN2),计算话题词之间的类似度(sim(TW i,TW j)),根据该类似度提取由在对象期间中表示相同话题的多个话题词构成的话题词群,针对该话题词群取得该对象期间中的出现文书的文书集合(TDm=TDi∩TDj),根据该文书集合的频度信息(dfm,tfk)和日期时间信息,再计算话题度和新鲜度的单元。
具体地说,话题词汇总部34针对包含在话题词表TWT中的单词,将表示相同话题的单词彼此汇总为一个单词。在该情况下,话题词汇总部34使用话题词表TWT中的出现文书的信息,计算2个单词之间的类似度,将类似度大的单词彼此的话题词数据合并,如图13所示那样修改话题词表TWT。在该合并中,要合并的2个单词的期间和出现文书也合并,基于此,也修改文书频度、单词频度、话题度、新鲜度。
图13是表示通过话题词汇总部34更新了的话题词表TWT的数据的例子的示意图。话题词汇总部34针对话题词表TWT中的单词,将判定为表示相同话题的单词彼此的话题词数据(话题词表TWT的行)合并。例如,针对图7的话题词表TWT,话题词汇总部34在将第一行TWT_L1的单词TWT_t的“口蹄疫”和第二行TWT_L2的单词TWT_t的“感染”判定为相同话题的情况下,如图6的第一行TWT_L1`所示那样,将这2个单词的话题词数据合并。在合并时,修改“出现文书”TWT_did或“文书频度”TWT_df、“单词频度”TWT_tf、“话题度”TWT_score、“新鲜度”TWT_fresh的值。
接着,使用图14和图15的流程图,说明以上那样构成的话题提取装置的动作。
现在,与上述同样地执行图14所示的步骤S100和S300,将通过话题词提取处理得到的频度信息、话题度、新鲜度等作为话题词表TWT而保存在话题提取部30中。
接着,话题词汇总部34进行话题词汇总处理,即针对话题词表TWT中的单词,将表示相同话题的单词彼此汇总(步骤S600)。通过话题词汇总处理,将被判定为表示相同话题的单词彼此的话题词数据合并。
图15是表示话题词汇总部34的话题词汇总处理(步骤S600)的流程的流程图。
话题词汇总部34取得话题词表TWT(步骤S601)。然后,话题词汇总部34针对话题词表TWT中的全部话题词数据TWi,进而同样针对话题词表TWT中的全部话题词数据TWj,重复进行步骤S604~步骤S606的处理(步骤S602、步骤S603)。其中,Twi≠TWj。
通过重复执行该步骤S602~S603,话题词汇总部34针对包含在话题词表TWT中的单词之间,判定是否汇总。为此,话题词汇总部34在步骤S604中,根据[数学式3]所示的式子,计算话题词数据TWi和TWj的类似度sim(TWi,TWj)。
[数学式3]
sim(TWi,TWj)=cosim(termi,termj,Dspni∪Dspnj)×cospanrate(SPNi,SPNj)
cos i m ( t e r m 1 , t e r m 2 , D o c s ) = d i c e ( t e r m 1 , t e r m 2 , D o c s ) = 2 c o ( t e r m 1 , t e r m 2 , D o c s ) d f ( t e r m 1 , D o c s ) + d f ( t e r m 2 , D o c s )
cos p a n r a t e ( S P N 1 , S P N 2 ) = 2 cos p a n ( S P N 1 , S P N 2 ) | S P N 1 | + | S P N 2 |
在此,共现类似度cosim(term i,term j,Dspn i∪Dspn j)是表示2个单词term i、term j的共现的强度的指标。作为共现类似度,可以使用在用语提取、关联词提取中一般使用的骰子(Dice)系数、雅科比(Jaccard)系数等。在本实施方式中,使用骰子系数(dice(term1,term2,Docs))。文书的并集Docs表示上述的并集Dspn i∪Dspn j。
共通期间比例cospanrate(SPNi,SPNj)是表示在TWi和TWj的“期间”中共通的期间的比例的指标。另外,话题词汇总部34根据类似度sim(TWi,TWj)和阈值β,与是否满足类似度sim(TWi,TWj)>β的关系对应地,判定话题词数据TWi和TWj是否是相同话题(步骤S605)。在此,阈值β是用于判定该话题词数据TWi和话题词数据TWj是否表示相同话题的基准值,在话题提取装置中可以事先设定,也可以在每次话题提取的处理时由用户设定。
在将话题词数据TWi和话题词数据TWj判定为相同话题的情况下(步骤S605-是),话题词汇总部34作成将话题词表TWT中的该话题词数据TWi、TWj合并后的话题词数据TWm,存储在话题词表TWT中(步骤S606)。
这时,合并后的话题词数据TWm的各项目的值如下。
即,用话题词数据TWa={单词ID termIDa,单词terma,期间SPNa,出现文书TDa,文书频度dfa,单词频度tfa,话题度scorea,新鲜度fresha}(a是尾标i、j或m)来表示。另外,对于合并后的话题词数据的各项目,如下这样补充说明。
·单词ID:合并后的话题词数据的一方的单词ID。
termIDm=termIDi
·单词:2个话题词数据的单词的集合。
termm={termi,termj}
·期间:在2个话题词数据的期间中共通的期间。
SPNm=cospan(SPNi,SPNj)
·出现文书的集合:以2个话题词数据的出现频度共通的文书的集合。
TDm=TDi∩TDj
·文书频度:包含在TDm中的文书数
dfm=|TDm|
·单词频度:包含在单词的集合TDm中的单词termi、termj的出现频度的平均。
tfk=(tf(termi,TDk)+tf(termj,TDk))/2
·话题度:使用上述的值,根据[数学式3]所示的式子再计算所得的话题度。
scorek=score(termk,SPNk)
在此,df(termk,Dspnk)=dfk,
tf(termk,D)=(tf(termi,D)+tf(termj,D))/2
·新鲜度:使用上述的值,根据[数学式2]所示的式子再计算所得的新鲜度。
freshk=fresh(termk,SPNk)
以上,是合并后的话题词数据TWm的各项目的补充说明。
另外,在合并处理后,话题词汇总部34从话题词表TWT中删除话题词数据TWi、TWj(步骤S607)。最后,话题词汇总部34输出话题词表TWT(步骤S608)。
在话题词汇总处理结束后,话题提示部22进行话题提示处理,即从话题提取部30接收通过以上的处理(步骤S300、S500、S600)生成的话题词表TWT,根据该话题词表TWT,如图16所示,向用户提示表示提取结果的话题提示画面G20(步骤S800)。在话题提示画面G20中,在话题词中的“口蹄疫、感染”、“普天间、基地”、“移设、县外”、“宰杀处理、种牛”的位置,汇总地提示了话题词。
如上述那样,根据本实施方式,在第一实施方式的效果以外,通过根据类似度和出现日期时间的序列适当地对表示相同话题的单词进行汇总的结构,能够更高精度地提取话题词。另外,作为单词的集合而提示话题,由此用户能够更准确地掌握话题的内容。
<第三实施方式>
图17是表示第三实施方式的话题提取装置的结构的框图。
本实施方式是第一实施方式的变形例,在图1所示的话题提取部30中,还具备话题词阶层提取部35。
在此,话题词阶层提取部35是针对由话题词提取部33提取的话题词(termi,termj),根据对象期间中的出现文书的出现频度(df(term1,Docs),df(term2,Docs))、日期时间信息(SPNi,SPNj)计算话题词之间的关联度,根据该关联度提取话题词之间的阶层关系的单元。
具体地说,话题词阶层提取部35根据话题词表TWT提取话题词之间的阶层。在话题词阶层提取部35中,使用话题词表TWT中的出现文书的信息,计算2个单词之间的关联度,并根据该关联度判定单词之间的阶层关系。另外,将判定所得的结果赋予话题词表TWT。
图18是表示通过话题词阶层提取部35更新了的话题词表TWT的数据的例子的示意图。话题词阶层提取部35针对话题词表TWT中的单词,判定单词之间的上下级关系,为了表示该上下级关系,在话题词表TWT的“上级单词”709的列中存储该单词的上级单词的单词ID。例如针对图7所示的话题词表TWT的单词TWT_t的“口蹄疫”、“感染”、“普天间”、“基地”、“移设”、“县外”、“德之岛”、“种牛”、“宰杀处理”、“边野古”,话题词阶层提取部35在如图19A和图19B所示那样提取了阶层关系的情况下,针对各个话题词数据,存储图18的“上级单词”TWT_root那样的值。在此,“上级单词”表示该单词的上级单词的单词ID。其中,作为与最上位的单词(在上述的例子中为“普天间”、“基地”、“口蹄疫”、“感染”)对应的上级单词,存储(root)这样的值。
另外,在话题提取装置中,伴随着还具备话题词阶层提取部35的情况,话题提示部22具有以下功能,即依照通过话题词阶层提取部35提取的话题词的阶层关系,提示话题词之间的上下级关系,并且按照新鲜度的顺序提示具有同级关系的话题词。
接着,使用图20~图22的流程图说明以上那样构成的话题提取装置的动作。
现在,与上述同样地执行图20所示的步骤S100~S300和S500,将通过话题词提取处理得到的频度信息、话题度、新鲜度等作为话题词表TWT保存在话题提取部30中。
接着,话题词阶层提取部35进行话题词阶层提取处理,即针对话题词表TWT中的单词,提取单词之间的阶层关系,将该阶层构造的信息赋予话题词表TWT(步骤S700)。将在后面详细说明话题词阶层提取处理。
在话题词阶层处理结束后,话题提示部22进行话题提示处理,即从话题提取部30接收通过以上处理(步骤S300、S500、S700)生成的话题词表TWT,根据该话题词表TWT,向用户提示提取结果(步骤S800)。另外,将在后面详细说明话题提示处理。
图21是表示话题词阶层提取部35的话题词阶层提取处理(步骤S700)的流程的流程图。
话题词阶层提取部35取得话题词表TWT(步骤S701)。然后,话题词阶层提取部35针对话题词表TWT中的全部话题词数据TWi,进而同样地针对话题词表TWT中的全部话题词数据TWj,重复执行步骤S704~步骤S706的处理(步骤S702、S703)。其中,TWi≠TWj。
通过该步骤S702、S703的重复执行,话题词阶层提取部35针对包含在话题词表TWT中的全部单词之间判定上下级关系。为此,话题词阶层提取部35在步骤S704中,根据[数学式4]所示的式子,计算话题词数据TWi和TWj的关联度rel(TWi,TWj)。
[数学式4]
rel(TWi,TWj)=mi(termi,termj,Dspni∪Dspnj)×cospanrate(SPNi,SPNj)
m i ( t e r m 1 , t e r m 2 , D o c s ) = a n log ( a n ( a + b ) ( a + c ) ) + b n log ( b n ( a + b ) ( b + d ) ) + c n log ( c n ( c + d ) ( a + c ) ) + d n log ( d n ( c + d ) ( b + d ) )
其中,mi(term1,term2,Docs)中的a、b、c、d是以下所示的值。
在此,mi(term i,term j,Dspn i∪Dspn j)是在话题词数据TWi、TWj的出现文书的并集中,根据相互信息量计算从一方的单词term i看时的另一方的单词term j的关系的强度的式子。另外,共通期间比例cospanrate(SPNi,SPNj)是与[数学式3]所示的式子相同的式子,是用于考虑期间的共通性的指标。接着,根据关联度rel(TWi,TWj)>γ这样的式子,对话题词数据TWi和TWj判定上下级关系(步骤S705)。在此,阈值γ是用于判定该话题词数据TWi是否应该为话题词数据TWj的上级的基准值,在话题提取装置中,既可以事先设定,也可以在每次话题提取处理时由用户设定。
然后,在判定为话题词数据TWi和话题词数据TWj有上下级关系的情况下(步骤S705-是),话题词阶层提取部35将该TWi作为上级,将TWj作为下级,将话题词数据TWi的“单词ID”(图7所示的TWT_tid)的值存储在话题词数据TWj的“上级单词”(图7所示的TWT_root)中(步骤S706)。对于存储在“上级单词”中的值,可以参照图18的说明。
话题词阶层提取部35直到提取不出上下级关系为止,通过重复执行该步骤S702~S703来重复判定话题词表TWT中的单词之间的上下级关系(步骤S707)。
然后,在该步骤S702、步骤S703的重复执行中,在一次都没有提取出上下级关系的情况下(步骤S707-是),话题词阶层提取部35输出话题词表TWT(步骤S708)。通过步骤S707的重复执行,话题词阶层提取部35多阶层地提取话题词表TWT中的单词的上下级关系。另外,针对所提取的阶层关系,也可以由用户指定直到哪个阶层进行提取。
图22是表示话题提示部22的话题提示处理(步骤S800)的流程的流程图。
现在,与上述同样地执行步骤S801~S803。
接着,话题提示部22从话题提取部30取得话题词表TWT,从话题词表TWT中取得“上级单词”是“(root)”(即在阶层中是最上位的)话题词数据,将包含这些话题词数据作为要素的话题词数据的集合设为TWS(步骤S804`)。例如,在图7的例子中,TWS={“普天间”,“基地”,“口蹄疫”,“感染”}。
接着,话题提示部22根据“新鲜度”TWT_fresh对话题词数据集合TWS的要素进行排序(步骤S805)。由此,按照时序顺序对阶层中处于同级的关系的话题进行排序。这也与后述的步骤S809的处理相同。
接着,话题提示部22直到话题词数据集合TWS成为空为止,重复执行步骤S807~S814的处理(步骤S806)。
首先,话题提示部22将话题词数据集合TWS中的位于开头的话题词数据设为p(步骤S807)。例如,在上述的例子中,由于是TWS={“普天间”,“基地”,“口蹄疫”,“感染”}的开头的话题词数据,所以p=“普天间”。
接着,话题提示部22从话题词表TWT中取得以p为上级的话题词数据的集合CTS。在上述的例子中,p=“普天间”,因此CTS={“移设”,“县外”,“××联立”}。
接着,话题提示部22按照“新鲜度”对以开头的话题词数据p为上级的话题词数据的集合CTS中的要素进行排序(步骤S809)。
接着,话题提示部22将该话题词数据的集合CTS中的全部话题词数据插入到话题词数据集合TWS中的开头的话题词数据p的位置(步骤S810`)。这时,话题提示部22在删除话题词数据集合TWS中的开头的话题词数据p的基础上,按照在步骤S809中排序了的顺序,向p的位置插入以p为上级的话题词数据的集合CTS中的话题词数据。
例如,在上述的例子中,针对TWS={“普天间”,“基地”,“口蹄疫”,“感染”}、p=“普天间”、CTS={“移设”,“县外”,“××联立”},通过步骤S810的处理,成为TWS={“移设”,“县外”,“××联立”,“基地”,“口蹄疫”,“感染”}。
然后,话题提示部22通过上述的步骤S811~S814的处理,如图23所示,将话题词数据p的信息显示在话题提示画面中。
这样,话题提示部22直到TWS成为空为止重复执行步骤S807~S814的处理,由此针对话题词表TWT中的全部话题词数据,依照其阶层构造,并且根据新鲜度按照时序顺序对处于同级关系的话题词数据进行排序,同时如图23所示那样,显示在话题词提示画面G30中。
如上述那样,根据本实施方式,除了第一实施方式的效果以外,通过根据关联度和出现日期时间的序列对话题词进行阶层化的结构,不只根据文书数的规模,还能够根据话题的期间规模对话题词进行阶层化。对于用户来说,通过纵观上位下位层的话题词能够俯览对象期间中的大话题的潮流,进而能够在深挖所关注的话题的同时,了解话题的细节。进而,按照新鲜度对同一阶层的话题进行排序,因此能够以各种细致度提示话题的迁移。
<第四实施方式>
图24是表示第四实施方式的话题提取装置的结构的框图。
本实施方式是将第二实施方式和第三实施方式组合到第一实施方式所得的例子,在图1所示的话题提取部30中,还具备图12所示的话题词汇总部34、图17所示的话题词阶层提取部35。
与此相伴,话题词表TWT和阶层构造如图25、图26A和图26B所示那样,针对汇总后的话题词也表示阶层构造。
根据以上那样的构造,如图27所示,在上述的话题词提取处理(步骤S500)之后,执行上述的话题词汇总处理(步骤S600)、话题词阶层提取处理(步骤S700)。
其结果是如图28所示,提示对话题词进行了汇总、并且明确表示出话题词的阶层构造的话题提示画面G40。
如上述那样,根据本实施方式,能够同时得到第一实施方式、第二实施方式、第三实施方式的效果。
<第五实施方式>
图29是表示第五实施方式的话题提取装置的结构的框图。
本实施方式是第一实施方式的变形例,在图1所示的话题提取部30中,还具备突发期间提取部32。
在此,突发期间提取部32是针对通过单词提取部31提取的各单词,取得出现文书的文书集合(TD(term,Dspn))中的出现日期时间的序列(TIMES),使用该出现日期时间的序列,分别提取该单词(term)集中出现的多个突发期间(BST),将该单词和各个突发期间的组(TS={term,BST})保存为不同的单词的单元。
具体地说,突发期间提取部32针对包含在单词文书表TDT中的各个单词,使用该单词出现的文书的日期时间的序列,提取该单词集中的突发期间BST,将该突发期间BST写入到单词期间表TST的“期间”TST_spn中。在此,在一个单词具有多个突发期间BSTi、BSTj、……的情况下,生成所提取的突发期间BSTi、BSTj……的个数的{单词,期间}的组(单词期间数据),分别赋予不同的“单词ID”。即,在记载上,即使是相同的单词,也将具有不同的突发期间BSTi、BSTj、……的单词作为不同的单词来处理。由此,例如生成图30所示的单词期间表TST。作为话题词提取部33的输入而使用在此生成的单词期间表TST。在包含突发期间提取部32的结构(第五实施方式~第八实施方式)中,通过突发期间提取部32,根据所生成的单词期间表TST,生成话题词表TWT。
另外,与该单词期间表TST对应地,分别在图7、图13、图18、图25中将TWT_spn的期间置换为图30的TST_spn的期间,由此得到装入了突发期间提取部32的情况下的话题词表TWT。
另外,伴随着话题提取装置还具备突发期间提取部32的情况,话题词提取部33和话题提示部22具有以下的功能。
即,话题词提取部33具有以下功能,即针对在通过单词提取部31提取的各单词中还通过突发期间提取部32提取的单词,不取得对象期间中的该单词出现的出现文书的文书集合,而根据通过突发期间提取部32提取的单词和各个突发期间的组(TS={term,BST}),取得该单词在该突发期间中出现的出现文书的文书集合(TD(term,Dbst)),根据表示该出现文书的出现频度的显著性的值(topical(term,BST))、加权值(tfidf(term)),计算话题度(score(term,BST)),提取该话题度为预定值(α)以上的单词作为话题词,并且针对该提取的各话题词,根据突发期间中的出现日期时间的序列,计算新鲜度(fresh(term,BST))。
话题提示部22具有以下的功能,即针对所提示的各话题词,强调显示通过突发期间提取部32提取的突发期间所对应的位置。
接着,使用图31~图33的流程图,说明以上那样构成的话题提取装置的动作。
现在,与上述同样地执行图31所示的步骤S100~S300,将通过单词提取处理而得到的单词文书表TDT保存在话题提取部30中。
接着,突发期间提取部32进行以下处理,即针对包含在单词文书表TDT中的各个单词提取突发期间BST,生成单词期间数据的集合即单词期间表TST(以下称为突发期间提取处理)(步骤S400)。另外,将在后面详细说明突发期间提取处理。
接着,话题词提取部33进行话题词提取处理,即针对通过突发期间提取处理(步骤S400)生成的单词期间表TST中的各个单词,根据在该期间中该单词出现的文书、文书频度、出现频度等信息,进行单词的话题度计算(给分),提取话题词(步骤S500)。将在后面详细说明话题词提取处理。另外,将通过该话题词提取处理得到的频度信息、话题度、新鲜度等作为话题词表TWT保存在话题提取部30中。
然后,话题提示部22进行话题提示处理,即从话题提取部30接收通过以上处理(步骤S300~步骤S700)生成的话题词表TWT,根据该话题词表TWT,向用户提示提取结果(步骤S800)。将在后面详细说明话题提示处理。
图32是表示突发期间提取部32的突发期间提取处理(步骤S400)的流程的流程图。
突发期间提取部32取得单词文书表TDT(步骤S401),作成{单词,期间}的组的集合TSS(步骤S402)。在此,组的集合TSS的初始值为空。
接着,突发期间提取部32针对包含在单词文书表TDT中的全部单词term,重复进行步骤S404~S407的处理(步骤S403)。
在步骤S404中,突发期间提取部32从单词文书表TDT中取得单词term的出现文书(“出现频度”为1以上的文书),取得该出现文书的日期时间信息作为单词term的出现日期时间的序列TIMES。
接着,突发期间提取部32根据单词term的出现日期时间的序列TIMES,提取单词term的突发期间的集合BSTS(步骤S405)。在此,作为突发期间的提取方法,例如能够使用非专利文献1所记载的方法。在该提取方法中,根据单词的出现日期时间的序列(在此为TIMES),取得该单词密集出现的多个期间。如果补充说明,则针对均匀出现的单词,不提取突发期间BST。
在步骤S405之后,突发期间提取部32针对突发期间的集合BSTS中的全部突发期间BST,重复执行步骤S407(步骤S406),将{term,BST}的组TS追加到该组的集合TSS中。通过以上的突发期间提取处理,单词文书表TDT中的单词根据突发期间BST被分割,在以后的处理中分别作为不同的单词来处理。
图33是表示话题提示部22的话题提示处理(步骤S800)的流程的流程图。
在此,与上述的图11同样地执行步骤S801~S814。其中,代替期间SPN,而作为基于突发期间BST的话题度score(term,BST),计算上述的话题度score(term,SPN)(作为基于Dbst的topical(term,BST),计算基于Dspn的topical(term,SPN))。同样,代替期间SPN,作为基于突发期间BST的新鲜度fresh(term,BST),计算上述的新鲜度fresh(term,SPN)。
另外,在步骤S814之后,话题提示部22针对在步骤S811中追加的行,强调显示与话题词数据p的“期间”对应的列的单元(步骤S815)。通过该处理,如图34所示,在话题提示画面G50中强调显示该话题涌现的时期(突发期间BST)。
如上述那样,根据本实施方式,除了第一实施方式的效果以外,通过在根据突发期间对单词进行分割的基础上提取话题词的结构,即使是相同的话题词也根据每个涌现时期进行提示,由此能够根据时期提示不同的话题之间的关联。
如果补充说明,则作为与在背景技术中说明的现有的话题提取方式不同的现有的其他话题提取方式,具有以下方式,即阶层地重复进行文书分群(clustering),由此将话题作为文书的集合(话题群),提取话题群/子话题群这样的话题的阶层。在该其他话题提取方式中,针对各个话题群的每个,根据出现频度提取话题词,根据日期时间信息进行提示。
但是,该其他话题提取方式,根据本发明人的研究,将话题细分为文书集合,由此虽然面向深挖话题而了解详细内容的用途,但不面向了解话题的变迁的用途。
另外,在新闻、博客等中,表示相同话题的单词、与话题关联的单词随着时间的经过而变化。因此,在求单词之间的关联的情况下,需要考虑单词出现的期间。另外,在着眼于一个单词而表示话题时,有时一个单词也根据出现时期而表示不同的话题,因此需要考虑单词的出现时期。
例如与冲绳县的普天间基地对应的“移设”这样的单词,在某时期表示“移设到德之岛”的话题,在其他时期表示“移设到边野古”的话题。这样,一个单词有时根据时期而表示不同的话题。
但是,在背景技术所述的现有的话题提取方式中,没有考虑单词的出现时期,因此根据单词的出现时期,有可能将不同的话题混淆为相同的话题。
在现有的其他话题提取方式中,将话题提取为话题群,由此吸收了话题的混淆。但是,在现有的其他话题提取方式中,在提取话题词时,有可能产生同样的混淆。
对此,根据本实施方式,通过如上述那样,在根据突发期间分割单词的基础上进行话题词的提取的结构,能够防止话题的混淆。
<第六实施方式>
图35是表示第六实施方式的话题提取装置的结构的框图。
本实施方式是将第二实施方式和第五实施方式组合到第一实施方式的例子,在图1所示的话题提取部30中,还具备图12所示的话题词汇总部34、图29所示的突发期间提取部32。
根据以上那样的结构,如图36所示,在上述的突发期间提取处理(步骤S400)之后,执行上述的话题词汇总处理(步骤S600)。因此,在话题词汇总处理(步骤S600)中,代替期间SPN,作为基于突发期间BST的类似度sim(TWi,TWj),而计算基于期间SPN的类似度sim(TWi,TWj)。如果补充说明,则代替期间SPN,作为基于突发期间BST的共现类似度co(term i,term j,Dbst i∪Dbst j),而计算基于期间SPN的共现类似度co(term i,termj,Dspn i∪Dspn j)。同样,代替期间SPN,作为基于突发期间BST的共通期间比例cospanrate(BST i,BST j),而计算基于期间SPN的共通期间比例cospanrate(SPN i,SPN j)。
其结果是如图37所示那样,提示话题词被汇总并强调了突发期间的话题提示画面G60。
如上述那样,根据本实施方式,能够同时得到第一实施方式、第二实施方式、第五实施方式的效果。
<第七实施方式>
图38是表示第七实施方式的话题提取装置的结构的框图。
本实施方式是将第三实施方式和第五实施方式组合到第一实施方式中的例子,在图1所示的话题提取部30中,还具备图17所示的话题词阶层提取部35、图29所示的突发期间提取部32。
根据以上那样的结构,如图39所示,在上述的突发期间提取处理(步骤S400)之后,执行上述的话题词阶层提取处理(步骤S700)。因此,在话题词阶层提取处理(步骤S700)中,代替期间SPN,作为基于突发期间BST的关联度rel(TWi,TWj),而计算基于期间SPN的关联度rel(TWi,TWj)。如果补充说明,则代替期间SPN,作为基于突发期间BST的相互信息量mi(termi,term j,Dbst i∪Dbst j),而计算基于期间SPN的相互信息量mi(term i,term j,Dspn i∪Dspn j)。同样,代替期间SPN,作为基于突发期间BST的共通期间比例cospanrate(BST i,BST j),而计算基于期间SPN的共通期间比例cospanrate(SPN i,SPN j)。
另外,话题提示处理如图40所示,具有强调显示突发期间BST的步骤S815而执行。
其结果是如图41所示,提示明确显示出话题词的阶层构造、强调了突发期间的话题提示画面G70。
如上述那样,根据本实施方式,能够同时得到第一实施方式、第三实施方式、第五实施方式的效果。
<第八实施方式>
图42是表示第八实施方式的话题提取装置的结构的框图。
本实施方式是将第四实施方式和第五实施方式组合到第一实施方式中的例子,在图1所示的话题提取部30中,还具备图24所示的话题词汇总部34和话题词阶层提取部35、图29所示的突发期间提取部32。
根据以上那样的结构,如图43所示,在上述的突发期间提取处理(步骤S400)之后,执行上述的话题词汇总处理(步骤S600)和话题词阶层提取处理(步骤S700)。即,在各处理(步骤S600、S700)中,与第六实施方式和第七实施方式同样地,代替期间SPN而基于突发期间BST计算类似度sim(TWi,TWj)、共现类似度co(term i,term j,Dbst i∪Dbst j)、共通期间比例cospanrate(BST i,BST j)、关联度rel(TWi、TWj)、相互信息量mi(term i,term j,Dbst i∪Dbst j)。
其结果是如图44所示,提示话题词被汇总、明确显示出话题词的阶层构造、并且强调了突发期间的话题提示画面G80。
如上述那样,根据本实施方式,能够同时得到第一实施方式、第四实施方式、第五实施方式的效果。
如果补充说明,则通过提取表示话题的单词作为话题词,对与相同的话题关联的话题词进行汇总,并与文书数、时间规模对应地阶层化的结构,能够与其时间迁移一起准确地掌握话题的总体情况、细节。另外,即使是相同话题也对每个涌现的时期进行阶层化,由此能够根据时期提示不同的话题之间的关联。
根据以上说明的至少一个实施方式,能够在指定的对象期间中,提示话题的变迁。
另外,上述各实施方式所记载的方法也可以作为能够使计算机执行的程序,存储在磁盘(软盘(注册商标)、硬盘等)、光盘(CD-ROM、DVD等)、光磁盘(MO)、半导体存储器等存储介质中发布。
另外,作为该存储介质,只要是能够存储程序、并且可由计算机读取的存储介质,则其存储形式可以是任意的形式。
另外,也可以由根据从存储介质安装到计算机中的程序的指示在计算机上运行的OS(操作系统)、数据库管理软件、网络软件等MW(中间件)等执行用于实现上述实施方式的各处理的一部分。
进而,各实施方式中的存储介质并不限于与计算机独立的介质,也包含对通过LAN、因特网等传输的程序进行下载后存储或暂时存储的存储介质。
另外,存储介质并不限于一个,从多个介质执行上述各实施方式的处理的情况也包含在本发明的存储介质中,介质结构可以是任意的结构。
另外,也可以是各实施方式中的计算机根据存储在存储介质中的程序执行上述各实施方式中的各处理,并且由个人计算机等的一台构成的装置、多个装置进行网络连接所得的系统等的任意的结构。
另外,各实施方式的计算机并不限于个人计算机,也包含信息处理设备所包含的运算处理装置、微型计算机等,是对能够根据程序实现本发明的功能的设备、装置的统称。
另外,说明了本发明的若干实施方式,但这些实施方式是作为例子而提示的,并不是要限定发明的范围。这些新的实施方式能够通过其他各种形式实施,在不脱离发明的主旨的范围中,能够进行各种省略、置换、变更。这些实施方式、其变形包含在发明的范围、主旨中,并且包含在权利要求所记载的发明及其等同的范围中。

Claims (5)

1.一种话题提取装置,具备:文书存储单元,其存储由具有文本信息和日期时间信息的多个文书构成的对象文书集合;期间指定单元,其接受成为话题提取的对象的对象期间的指定;话题提取单元,其从存储在上述文书存储单元中的对象文书集合中,提取表示接受了上述指定的对象期间中的话题的单词即话题词,并且针对各话题词计算表示时事性的尺度即新鲜度;话题提示单元,其按照上述新鲜度的顺序提示通过上述话题提取单元提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数,该话题提取装置的特征在于,
上述话题提取单元具备:
单词提取单元,其从存储在上述文书存储单元中的对象文书集合中提取各单词,分别计算该各单词的出现频度和表示该各单词出现的文书数的文书频度;以及
话题词提取单元,其针对通过上述单词提取单元提取的各单词,取得上述对象期间中的该单词出现的出现文书的文书集合,根据表示该出现文书的出现频度的显著性的值、基于上述单词的出现频度和上述文书频度的该单词的加权值,计算表示与话题词的接近性的尺度即话题度得分,基于针对提取的各单词在该对象期间中平均出现时刻计算新鲜度、将话题度得分与新鲜度相乘的值作为单词的话题度,提取该单词的话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度,
所述新鲜度是所述平均出现时刻和所述对象期间中开始日期时间的差,与所述对象期间中结束日期时间和所述开始日期时间的差的倒数所相乘的值。
2.根据权利要求1所述的话题提取装置,其特征在于,
上述话题提取单元还具备:
话题词汇总单元,其针对通过上述话题词提取单元提取的话题词,根据上述对象期间中的出现文书、该出现文书的出现频度、日期时间信息计算话题词之间的类似度,根据该类似度提取由在对象期间中表示相同话题的多个话题词构成的话题词群,针对该话题词群取得该对象期间中的出现文书的文书集合,根据该文书集合的频度信息和日期时间信息,再计算上述话题度得分和上述新鲜度。
3.根据权利要求1所述的话题提取装置,其特征在于,
上述话题提取单元还具备:
话题词阶层提取单元,其针对通过上述话题词提取单元提取的话题词,根据上述对象期间中的出现文书的出现频度和日期时间信息计算话题词之间的关联度,根据该关联度提取话题词之间的阶层关系,
上述话题提示单元依照通过上述话题词阶层提取单元提取的话题词的阶层关系,提示话题词之间的上下级关系,并且按照上述新鲜度的顺序提示处于同级关系的话题词。
4.根据权利要求1~3的任意一项所述的话题提取装置,其特征在于,
上述话题提取单元还具备:
突发期间提取单元,其针对通过上述单词提取单元提取的各单词,取得上述出现文书的文书集合中的出现日期时间的序列,使用该出现日期时间的序列分别提取该单词集中出现的多个突发期间,将该单词和各个突发期间的组保存为不同的单词,
上述话题词提取单元针对通过上述单词提取单元提取的各单词中的还通过上述突发期间提取单元提取的单词,不取得上述对象期间中的该单词出现的出现文书的文书集合,而根据通过上述突发期间提取单元提取的单词和各个突发期间的组,取得该单词在该突发期间中出现的出现文书的文书集合,根据表示该出现文书的出现频度的显著性的值和上述加权值计算话题度得分,提取该话题度得分为预定值以上的单词作为话题词,并且针对该提取的各话题词,根据突发期间中的出现日期时间的序列计算新鲜度,
上述话题提示单元针对上述提示的各话题词,强调地显示与通过上述突发期间提取单元提取的突发期间对应的位置。
5.一种话题提取方法,其通过具备文书存储单元的话题提取装置的处理器被执行,并存储在非暂时的计算机可读取的存储介质中,上述文书存储单元存储由具有文本信息和日期时间信息的多个文书构成的对象文书集合,上述方法的特征在于,
具备:
第一步骤,其使上述处理器执行以下处理,即接受成为话题提取的对象的对象期间的指定;
第二步骤,其使上述处理器执行话题提取处理,即从存储在上述文书存储单元中的对象文书集合中,提取表示接受了上述指定的对象期间中的话题的单词即话题词,并且针对各话题词计算表示时事性的尺度即新鲜度;以及
第三步骤,其使上述处理器执行以下处理,即按照上述新鲜度的顺序提示通过上述话题提取处理提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数,
上述话题提取处理包含:
单词提取处理,其从存储在上述文书存储单元中的对象文书集合中提取各单词,分别计算该各单词的出现频度和表示该各单词出现的文书数的文书频度;以及
话题词提取处理,其针对通过上述单词提取处理提取的各单词,取得上述对象期间中的该单词出现的出现文书的文书集合,根据表示该出现文书的出现频度的显著性的值、基于上述单词的出现频度和上述文书频度的该单词的加权值,计算表示与话题词的接近性的尺度即话题度得分,基于针对提取的各单词在该对象期间中平均出现时刻计算新鲜度、将话题度得分与新鲜度相乘的值作为单词的话题度,提取该单词的话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度,
所述新鲜度是所述平均出现时刻和所述对象期间中开始日期时间的差,与所述对象期间中结束日期时间和所述开始日期时间的差的倒数所相乘的值。
CN201280004293.XA 2011-03-11 2012-03-08 话题提取装置及其方法 Expired - Fee Related CN103282903B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011-054497 2011-03-11
JP2011054497A JP5232260B2 (ja) 2011-03-11 2011-03-11 話題抽出装置及びプログラム
PCT/JP2012/056004 WO2012124608A1 (ja) 2011-03-11 2012-03-08 話題抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
CN103282903A CN103282903A (zh) 2013-09-04
CN103282903B true CN103282903B (zh) 2016-09-07

Family

ID=46830681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280004293.XA Expired - Fee Related CN103282903B (zh) 2011-03-11 2012-03-08 话题提取装置及其方法

Country Status (4)

Country Link
US (1) US9449051B2 (zh)
JP (1) JP5232260B2 (zh)
CN (1) CN103282903B (zh)
WO (1) WO2012124608A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1960903A4 (en) 2005-11-28 2009-01-28 Commvault Systems Inc SYSTEMS AND METHOD FOR CLASSIFICATION AND TRANSFER OF INFORMATION IN A STORAGE NETWORK
US20200257596A1 (en) 2005-12-19 2020-08-13 Commvault Systems, Inc. Systems and methods of unified reconstruction in storage systems
US8370442B2 (en) 2008-08-29 2013-02-05 Commvault Systems, Inc. Method and system for leveraging identified changes to a mail server
US8892523B2 (en) 2012-06-08 2014-11-18 Commvault Systems, Inc. Auto summarization of content
JP5940135B2 (ja) * 2014-12-02 2016-06-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 話題提示方法、装置及びコンピュータ・プログラム。
US10353994B2 (en) * 2015-11-03 2019-07-16 Commvault Systems, Inc. Summarization of email on a client computing device based on content contribution to an email thread using classification and word frequency considerations
CN105931638B (zh) * 2016-04-26 2019-12-24 北京光年无限科技有限公司 面向智能机器人的对话系统数据处理方法及装置
US10140285B2 (en) * 2016-06-15 2018-11-27 Nice Ltd. System and method for generating phrase based categories of interactions
US10043187B2 (en) * 2016-06-23 2018-08-07 Nice Ltd. System and method for automated root cause investigation
CN106484797B (zh) * 2016-09-22 2020-01-10 北京工业大学 基于稀疏学习的突发事件摘要抽取方法
US10540516B2 (en) 2016-10-13 2020-01-21 Commvault Systems, Inc. Data protection within an unsecured storage environment
CN110019556B (zh) * 2017-12-27 2023-08-15 阿里巴巴集团控股有限公司 一种话题新闻获取方法、装置及其设备
US11494417B2 (en) 2020-08-07 2022-11-08 Commvault Systems, Inc. Automated email classification in an information management system
JP7160971B2 (ja) * 2021-02-15 2022-10-25 株式会社 ミックウェア コンテンツ制御装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118560A (zh) * 2006-08-03 2008-02-06 株式会社东芝 关键词输出设备和关键词输出方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194745A (ja) * 1998-12-25 2000-07-14 Nec Corp トレンド評価装置及びトレンド評価方法
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
JP4298550B2 (ja) * 2004-03-10 2009-07-22 日本電信電話株式会社 単語抽出方法、装置、およびプログラム
JP4206961B2 (ja) * 2004-04-30 2009-01-14 日本電信電話株式会社 話題抽出方法及び装置及びプログラム
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
US8918399B2 (en) * 2010-03-03 2014-12-23 Ca, Inc. Emerging topic discovery

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118560A (zh) * 2006-08-03 2008-02-06 株式会社东芝 关键词输出设备和关键词输出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Wadaigo Chushutsu Kinoo Motta News Stream Etsuran System;Takayuki ADACHI et al;《Proceeding of the 10th annual meeting of the Association for Natural Language Processing[CDROM] , The Association for Natural Language Processing》;20040318;第1-4页 *

Also Published As

Publication number Publication date
JP2012190340A (ja) 2012-10-04
JP5232260B2 (ja) 2013-07-10
US9449051B2 (en) 2016-09-20
US20140019445A1 (en) 2014-01-16
CN103282903A (zh) 2013-09-04
WO2012124608A1 (ja) 2012-09-20

Similar Documents

Publication Publication Date Title
CN103282903B (zh) 话题提取装置及其方法
Parikh et al. ToTTo: A controlled table-to-text generation dataset
Wang et al. Relevant document discovery for fact-checking articles
CN109690529B (zh) 按事件将文档编译到时间线中
Savoy Lexical analysis of US political speeches
Ulrich et al. A publicly available annotated corpus for supervised email summarization
US20120036130A1 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
CN105095279B (zh) 文件推荐方法和装置
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
US9633110B2 (en) Enrichment of data using a semantic auto-discovery of reference and visual data
He et al. Twitter summarization with social-temporal context
Fu et al. Automatic record linkage of individuals and households in historical census data
CN108446295A (zh) 信息检索方法、装置、计算机设备和存储介质
Bevendorff et al. Crawling and preprocessing mailing lists at scale for dialog analysis
CN101853298A (zh) 一种面向事件的查询扩展方法
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
Hassel Evaluation of automatic text summarization
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN113571196A (zh) 构建医疗训练样本的方法及装置、医疗文本的检索方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Faltýnek et al. Hapax remains: Regularity of low-frequency words in authorial texts
Thelwall et al. Language evolution and the spread of ideas on the Web: A procedure for identifying emergent hybrid word family members
CN105701119A (zh) 检索过滤方法及其处理装置
Harris Judicial decision making and computers
Lin et al. Scaling laws in human speech, decreasing emergence of new words and a generalized model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907

Termination date: 20210308

CF01 Termination of patent right due to non-payment of annual fee