CN102054018B - 信息处理设备、信息处理方法以及程序 - Google Patents

信息处理设备、信息处理方法以及程序 Download PDF

Info

Publication number
CN102054018B
CN102054018B CN2010105302033A CN201010530203A CN102054018B CN 102054018 B CN102054018 B CN 102054018B CN 2010105302033 A CN2010105302033 A CN 2010105302033A CN 201010530203 A CN201010530203 A CN 201010530203A CN 102054018 B CN102054018 B CN 102054018B
Authority
CN
China
Prior art keywords
statement
document
score
word
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010105302033A
Other languages
English (en)
Other versions
CN102054018A (zh
Inventor
礒津政明
榎并嗣智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102054018A publication Critical patent/CN102054018A/zh
Application granted granted Critical
Publication of CN102054018B publication Critical patent/CN102054018B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

本发明提供了一种信息处理设备、信息处理方法以及程序,其中所述信息处理设备包括:类别分类单元,其被配置成将文档分类成一个或多个类别;词提取单元,其被配置成从文档提取一个或多个词;词得分计算单元,其被配置成基于词在一个或多个类别的每个中的出现频率,计算从文档提取出的一个或多个词的每个的词得分,其中词得分用作词的兴趣性的指标;运算用语句提取单元,其被配置成从文档提取一个或多个语句;以及语句得分计算单元,其被配置成基于词得分计算单元计算出的词得分,计算提取出的一个或多个语句的每个的语句得分,其中语句得分用作语句的兴趣性的指标。

Description

信息处理设备、信息处理方法以及程序
技术领域
本发明涉及一种信息处理设备、信息处理方法以及程序。特别地,本发明涉及使得能够提取对用户来说具有高兴趣度的语句的信息处理设备、信息处理方法以及程序。
背景技术
因特网的普及使得用户能够容易地获得庞大量的文档。然而,用户不容易从这样庞大量的文档当中找到单个文档。这里,术语“文档”意味着一个或多个语句的集合。
因此,使用了用于搜索文档的各种方法。例如,作为用于搜索文档的典型方法,以下方法是普遍的。即,因特网上的网站的搜索引擎搜索包含输入的查询词的网页,并且显示该网页。然而,如果输入普通的词或短语作为查询词,那么作为搜索结果被显示的文档的数量远远超过用户可以找到期望文档的范围。
因此,日本未审查的专利申请公布第2008-077252号公开了以下方法作为用于通过进一步细化(refine)文档来搜索文档的方法。即,使用与文档的主题的量或密度相关的基准对文档进行排序,并且将按照预定排序的文档显示为搜索结果。该方法被称为文档排序方法。使用该文档排序方法,将作为搜索结果被显示的文档的数量减少到用户在其内可以找到期望文档的范围的某种程度。
发明内容
然而,用户最终预期的搜索结果经常是语句级的结果,而不是文档级的结果。此外,近年来,用户期望更引起兴趣的语句,因此要求呈现令人感兴趣的语句作为搜索结果。
在文档排序方法中,不满足这样的要求。即,在文档排序方法中,使用文档的主题的量或密度作为评价标准来对文档进行排序,因此,不确定构成文档的语句的普通度或兴趣度。因此,如果使用文档排序方法,那么搜索令人感兴趣的语句是非常困难的。
同时,在信息搜索领域中,词频-逆文档频率(TF-IDF)被广泛地用作用于从文档群提取特征词的方法。可通过将TF-IDF应用到文档排序方法来搜索语句。然而,即使在该情况下,也难以充分地满足将令人感兴趣的语句呈现为搜索结果的要求。即,IDF值可以是词的普通性/稀有性(rarity)的指标,但是针对整个文档群而被算出。因此,即使词是稀有词,使用TF-IDF提取出的词也未必是令人感兴趣的词。因此,即使仅仅将包含稀有词的语句作为搜索结果呈现给用户,该语句也未必是用户感兴趣的。
因此,期望使得能够提取对用户来说具有高兴趣度的语句。
根据本发明的实施例的信息处理设备包括以下元件:类别分类装置,其用于将文档分类成多个类别当中的一个或多个类别;词提取装置,其用于从文档提取一个或多个词;词得分计算装置,其用于基于词在类别分类装置将文档分类成的一个或多个类别的每个中的出现频率,计算词提取装置从文档提取出的一个或多个词的每个的词得分,其中词得分用作词的兴趣性的指标;运算用语句提取装置,其用于从文档提取一个或多个语句;以及语句得分计算装置,其用于基于词得分计算装置计算出的词得分,计算运算用语句提取装置提取出的一个或多个语句的每个的语句得分,其中语句得分用作语句的兴趣性的指标。
类别分类装置可包括:获得装置,其用于获得包含能够指定多个类别的任意的多个关键词的列表,以及分类装置,其用于在文档包含与包含在列表中的多个关键词的任意匹配的词的情况下,将文档分类成由与该词匹配的关键词指定的类别。
信息处理设备还可包括语句得分列表生成装置,其用于针对文档生成语句得分计算装置计算出的一个或多个语句得分的列表。
信息处理设备还可包括:要呈现语句提取装置,其用于在文档的普通度高的情况下,从文档提取具有包含在语句得分列表生成装置生成的列表中的一个或多个语句得分中的N个最高得分的一个或多个语句,其中N是一或更大的整数值,并且如果文档的普通度低,那么从文档提取具有包含在列表中的一个或多个语句得分中的M个最低得分的一个或多个语句,其中M是一或更大的整数值,以及呈现装置,其用于呈现要呈现语句提取装置提取出的一个或多个语句。
要呈现语句提取装置可基于要由呈现装置执行的呈现的条件,确定N或M的值。
根据本发明的实施例的信息处理方法和程序是与前述信息处理设备对应的方法和程序。
在根据本发明的实施例的信息处理设备、信息处理方法以及程序中,文档被分类成多个类别当中的一个或多个类别,并且从文档提取一个或多个词。基于词在文档被分类成的一个或多个类别的每个中的出现频率,针对从文档提取的一个或多个词的每个计算用作词的兴趣性指标的词得分。从文档提取一个或多个语句,并且基于词得分,针对提取出的一个或多个语句的每个计算用作语句的兴趣性指标的语句得分。
根据本发明的实施例,可以提取对用户来说具有高兴趣度的语句。
附图说明
图1是示出根据本发明的实施例的语句提取系统的配置的框图;
图2是示出移动终端的功能配置的示例的框图;
图3是示出服务器的硬件配置的示例的框图;
图4是示出CPU(中央处理单元)的功能配置的示例的框图;
图5是示出类别分类单元的功能配置的示例的框图;
图6是示出要呈现语句提取单元的功能配置的示例的框图;
图7是示出语句得分计算处理的示例的流程图;
图8A到8C是示出文档的具体示例的图;
图9是示出类别分类处理的示例的流程图;
图10A到10D是示出类别分类处理的结果的图;
图11A到11C是示出类别分类处理的另一结果的图;
图12是示出隐马尔可夫模型的概率模型的示例的图;
图13A到13C是示出词提取处理的结果的图;
图14是示出被分类成类别的文档的数量的示例的图;
图15是示出词得分计算处理的结果的图;
图16是示出语句得分的列表的图;
图17是示出语句提取处理的示例的流程图;
图18是示出可显示语句提取处理的示例的流程图;以及
图19是示出移动终端的显示示例的图。
具体实施方式
在下文中,将参照附图描述本发明的实施例。
根据实施例的语句提取系统的配置的示例
图1是示出根据本发明的实施例的语句提取系统的配置的示例的框图。
在图1中示出的语句提取系统1包括移动终端12和服务器13,其经由网络11相互连接。
用作信息处理设备的服务器13向连接到网络11的其它设备提供各种服务。
移动终端12是用户便携的移动电话等,并且通过经由网络11与服务器13通信来从服务器13接收服务。
在该实施例中,因特网用作网络11。然而,网络11不限于因特网,并且可具有诸如局域网(LAN)的其它各种形式,并可包括这些形式作为部分。
移动终端12的配置的示例
图2是示出在图1示出的语句提取系统1中的移动终端12的功能配置的示例的框图。
在图2中示出的移动终端12包括输入单元31、通信单元32以及显示单元33。
输入单元31包括按钮和滚轮,并且由用户操作以输入字符串,诸如预定关键词或统一资源定位符(URL)。
通信单元32控制经由网络11与服务器13进行的通信。例如,通信单元32将输入到输入单元31的字符串经由网络11传送到服务器13。另外,当从服务器13提供服务时,通信单元32经由网络11接收从服务器13传送的诸如语句和图像的信息。
显示单元33显示通信单元32接收到的信息,诸如语句和图像。服务器13的配置的示例
图3是示出在图1示出的语句提取系统1中的服务器13的硬件配置的示例的框图。
在图3示出的服务器13中,中央处理单元(CPU)51根据存储在只读存储器(ROM)52中的程序或从存储单元58加载到随机存取存储器(RAM)53的程序,执行各种处理。另外,CPU 51执行各种处理必要的数据等必要时存储在RAM 53中。
在该实施例中,例如,用于执行在图4(下面描述)中示出的文档获得单元81到要呈现语句提取单元88的各个功能的程序存储在ROM 52或存储单元58中。因此,当CPU 51根据程序执行处理时,可实现文档获得单元81到要呈现语句提取单元88的各个功能。
CPU 51、ROM 52以及RAM 53经由总线54相互连接。输入/输出接口55也连接到总线54。
输入/输出接口55还连接到包括键盘和鼠标的输入单元56和包括显示器等的输出单元57。输入/输出接口55还连接到包括硬盘的存储单元58和包括调制解调器及终端适配器的通信单元59。
存储单元58存储多类文档群。一个文档群由从网络11上的各种设备(未示出)获得的各种文档当中的包含预定类型内容的一个或多个文档构成。例如,由包含关于名人的信息的一个或多个文档构成的文档群存储在存储单元58中。一个文档是一个或多个语句的集合。
另外,关键词的列表存储在存储单元58中。在下面将参照图9描述的文档的类别分类处理中使用关键词的列表。此外,语句得分的列表(下面描述)存储在存储单元58中。
用作呈现装置的通信单元59控制经由网络11与移动终端12进行的通信。
另外,输入/输出接口55必要时连接到驱动器60,并且诸如磁盘、光盘、磁光盘或半导体存储器的可拆卸介质61被装载到驱动器60中。然后,从其读出的计算机程序必要时被安装到存储单元58中。
CPU 51的配置的示例
图4是示出在图3中示出的服务器13的CPU 51的功能配置的示例的框图。
在图4中示出的CPU 51包括文档获得单元81、类别分类单元82、词提取单元83、词得分计算单元84、运算得分用语句提取单元85、语句得分计算单元86、语句得分列表生成单元87以及要呈现语句提取单元88。
文档获得单元81控制通信单元59,以从连接到网络11的各种设备(未示出)接收诸如网页的多个文档,由此共同获得作为文档群的多个文档。获得的文档群存储在存储单元58中。
类别分类单元82将包含在文档获得单元81获得的文档群中的多个文档的每个分类成多个类别当中的一个或多个类别。
文档获得单元81从文档群选择类别分类单元82已分类的文档之一作为处理对象。
词提取单元83提取包含在作为文档获得单元81选择的处理对象的文档中的多个词。
词得分计算单元84计算词提取单元83提取出的各个词的词得分。词得分是用作词的普通性或稀有性的指标的值。下面将关于图7中的步骤S5描述词得分的细节。
用作运算用语句提取装置的运算得分用语句提取单元85提取包含在作为文档获得单元81选择的处理对象的文档中的一个或多个语句。
语句得分计算单元86计算运算得分用语句提取单元85提取出的一个或多个语句的各个的语句得分。语句得分是用作语句的普通性或稀有性的指标的值。下面将关于图7中的步骤S7描述语句得分的细节。
语句得分列表生成单元87生成语句得分计算单元86针对包含在作为处理对象的文档中一个或多个语句的各个而计算出的语句得分的列表。
要呈现语句提取单元88从文档群提取如下文档:其中,语句得分的列表已经由语句得分列表生成单元87生成。此外,要呈现语句提取单元88从提取出的文档提取要呈现给用户的语句。例如,要呈现语句提取单元88通过使用语句得分的列表来提取具有高稀有度或普通度的语句。下面将参照图17描述用于通过要呈现语句提取单元88提取语句的方法的具体示例。
类别分类单元82的配置的示例
图5是示出在图4中示出的类别分类单元82的具体功能配置的示例的框图。
在图5中示出的类别分类单元82包括获得单元101、选择单元102、分类单元103以及确定单元104。
获得单元101获得存储在存储单元58中的关键词的列表。关键词的列表是包含预先被分类成预定类别的一个或多个关键词的列表。在下面将参照图9描述的文档的类别分类处理中使用关键词的列表。
选择单元102选择包含在文档获得单元81获得的文档群中的一个文档作为处理对象。
分类单元103通过使用获得单元101获得的关键词的列表,将选择单元102选择的作为处理对象的文档分类成多个类别当中的一个或多个类别。这里,注意,一个文档可被分类成多个类别以及分类成一个类别。
确定单元104确定包含在文档群中的全部文档是否已被分类。如果确定单元104确定存在没有被分类的文档,那么选择单元102选择该文档作为处理对象,并且分类单元103对该文档执行类别分类处理。
要呈现语句提取单元88的配置的示例
图6是示出在图4中示出的要呈现语句提取单元88的功能配置的示例的框图。
在图6中示出的要呈现语句提取单元88包括搜索单元121、提取单元122、评价单元123、存储控制单元124以及选择单元125。
在该实施例中,在文档群和语句得分列表生成单元87针对各个文档生成的语句得分的列表存储在存储单元58中的状态下,用户操作移动终端12以提供从文档群搜索文档的指示。
在该情况下,搜索单元121响应于从移动终端12提供的指示,从文档群搜索预定文档。
用作要呈现语句提取装置的提取单元122从存储单元58提取搜索单元121搜索到的文档和相应的语句得分列表。
评价单元123评价提取单元122提取出的文档的普通度。评价普通度等效于评价稀有度。替选地,评价单元123可评价与提取单元122提取出的文档相关的演出者的受欢迎度。评价受欢迎度等效于评价知名度。此外,评价单元123基于提取单元122提取出的语句得分的列表,评价包含在提取单元122提取出的文档中的语句。下面将参照图17和18描述评价单元123执行的评价方法的具体示例。
提取单元122基于评价单元123做出的评价,从先前提取出的文档提取要呈现给用户的一个或多个语句。
存储控制单元124将提取单元122提取出的语句存储在存储单元58中,其中该语句是要在移动终端12上显示的候选。注意,候选可以是一个语句或多个语句。
选择单元125从存储控制单元124存储的候选语句选择满足移动终端12的显示区的条件的一个或多个语句,并且经由通信单元59将所选择的语句呈现在移动终端12上。
语句得分计算处理
在根据本发明的实施例的语句提取系统1中,执行语句得分计算处理。在该处理中,服务器13计算包含在文档中的各个语句的语句得分,并且生成语句得分的列表。对构成存储在存储单元58中的文档群的各个文档重复执行语句得分计算处理。然后,如下面参照图17等描述的那样,通过使用存储在存储单元58中的语句得分的列表,执行向用户呈现具有高兴趣度的语句的处理。即,执行语句得分计算处理作为用于呈现给用户具有高兴趣度的语句的预处理。
图7是示出服务器13执行的语句得分计算处理的示例的流程图。
在步骤S1中,文档获得单元81获得文档群。即,文档获得单元81控制通信单元59,以从连接到网络11的各种设备(未示出)接收诸如网页的多个文档,由此共同获得作为文档群的多个文档。获得的文档群存储在存储单元58中。
现在,将参照图8A到8C描述包含在文档群中的文档的具体示例。
图8A到8C是示出文档的具体示例的图。
图8A、8B以及8C分别示出了包含在与名人有关的文档群中的文档X、Y以及Z。
在作为英语文档的文档X、Y以及Z中,使用句号来分隔语句。
在图8A中示出的文档X具有以下内容:“歌手x在2000年毕业于AA高中。她通过B演出的“CC”而作为歌手初次登场。在2002年,她在RW音乐节首次出场,并且演唱了“DD”。在2003年,她举行EE聚会以纪念她的写真集的发行。在2005年,她担当FF集团的形象大使。”
在图8B中示出的文档Y具有以下内容:“演员y是来自东京的日本女演员。她的父亲是GG,他是日本国家足球队的成员。在2001年,她毕业于HH音乐大学,并且作为演员初次登场。在2004年,她获得日本电影金像奖(Japan Academy Awards)新人女演员奖。在2005年,她扮演电影II中的女主人公JJ,并且引起轰动。她还作为钢琴家而著名,并且在2006年音乐会中演奏了KK协奏曲。”
在图8C中示出的文档Z具有以下内容:“运动员z来自北海道并且属于LL队。在2001年,他被首次选为日本国家队的成员,并且此后延续他的连续出场记录。在2003年,他作为歌手初次登场。在2004年,他出现在三个TV(电视)商业节目中。”
在步骤S2中,类别分类单元82执行类别分类处理。
现在,将描述类别分类处理的具体示例。
图9是示出类别分类单元82执行的类别分类处理的示例的流程图。
在步骤S31中,获得单元101获得关键词的列表。这里,关键词的列表是包含被预先分类成预定类别的一个或多个关键词的列表。例如,属于类别“歌手”的关键词的列表是包含被预先分类成类别“歌手”的、诸如“唱片集”和“RW音乐节”的关键词的列表。对于每个类别获得这样的关键词的列表。例如,在该实施例中,获得属于如下四个类别的关键词的列表(未示出):“歌手”;“钢琴家”;“男演员/女演员”;以及“运动员”。
在步骤S32中,选择单元102选择作为处理对象的文档。即,选择单元102从在图7的步骤S1中获得的文档群选择一个文档作为处理对象。
在步骤S33中,分类单元103将作为处理对象的文档分类成与关键词对应的类别。即,分类单元103从关键词的列表搜索与包含在作为处理对象的文档中的词匹配的关键词。如果找到与词匹配的关键词,那么将作为处理对象的文档分类成包含该关键词的列表所属的类别。
在步骤S34中,确定单元104确定全部文档是否被选择作为处理对象。
如果在步骤S34中确定没有将全部文档选择作为处理对象,那么从步骤S32重复处理。即,将包含在步骤S1获得的文档群中的文档相继选择作为处理对象,并且在重复的从步骤S32到步骤S34的循环处理中对其进行分类。当对最后的文档执行的步骤S33结束时,包含在步骤S1获得的文档群中的全部文档的类别分类结束。然后,在步骤S34中确定全部文档被选择作为处理对象,并且类别分类处理结束。
在类别分类处理的前述示例中,采用了基于集合智慧、通过使用人为关键词来将文档分类成类别的方法。然而,类别分类方法不特别限于前述示例,并且也可采用基于机器学习的类别分类方法。
例如,可使用应用贝叶斯定理的朴素贝叶斯分类器作为基于机器学习的类别分类方法。朴素贝叶斯分类器计算包含在文档D中的“每个词”属于类别C的概率。另外,朴素贝叶斯分类器合计每个词属于类别C的概率并且计算“文档D”属于类别C的概率。即,使用以下表达式(1)计算文档D属于类别C的概率P(C|D)。
P(C|D)=(P(C)/P(D))*P(D|C)             …(1)
在该实施例中,作为前述类别分类处理的结果,以在图10A到11C中示出的方式将文档X、Y以及Z分类成类别。
图10A到10D是示出类别分类处理的结果和从类别的观点查看的结果的图。
在图10A到10D中,包含在与名人相关的文档群中的文档X、Y以及Z被分类成如下四个类别当中的一个或多个类别:“歌手”;“钢琴家”;“男演员/女演员”;以及“运动员”。
如图10A所示,文档X和Z属于类别“歌手”。
如图10B所示,文档Y属于类别“钢琴家”。
如图10C所示,文档Y属于类别“男演员/女演员”。
如图10D所示,文档Z属于类别“运动员”。
图11A到11C是示出类别分类处理的结果和从文档的观点查看的结果的图。
如图11A所示,表示文档所属的类别的标签(即,表示类别“歌手”的标签)被附于文档X。
如图11B所示,表示文档所属的类别的标签(即,表示类别“男演员/女演员”和“钢琴家”的标签)被附于文档Y。
如图11C所示,表示文档所属的类别的标签(即,表示类别“运动员”和“歌手”的标签)被附于文档Z。
如图10A到11C所示,文档Y被分类成两个类别“男演员/女演员”和“钢琴家”。文档Z被分类成两个类别“运动员”和“歌手”。以该方式,一个文档可被分类成多个类别。
回头参照图7中的流程图,在结束了步骤S2中的前述类别分类处理之后,文档获得单元81在步骤S3中选择作为处理对象的文档。即,文档获得单元81选择已被分类成类别的文档之一作为处理对象。
在步骤S4中,词提取单元83从作为处理对象的文档提取词。
现在,将描述从作为处理对象的文档提取词的处理(在下文中,被称为词提取处理)的具体示例。
作为用于词提取处理的方法,可采用用于对整个文档执行词法分析并且以词性(part of speech)水平提取词的方法。隐马尔可夫模型是在日语、英语等的词法分析中广泛使用的统计方法的示例。隐马尔可夫模型是如下方法:其用于列举可以从输入语句生成的全部词序列,为词连结时出现的概率打分,并且提取语句中具有最高得分的词性序列。由于为各个语言提供了各种词法分析系统,因此该方法不取决于使用的语言。
图12是示出隐马尔可夫模型的概率模型的示例的图。
参照图12,当输入语句时,状态M1的符号被给予初始状态“开始”。以圆节点示出可以从输入语句生成的各个词序列,并且状态M2到状态M6的符号被给予各个节点。在状态M1到状态M6当中,由从第一状态延展到第二状态的箭头表示从第一状态到第二状态的转移,并且箭头中的值表示从第一状态到第二状态的转移发生的概率。即,箭头中的值表示第一状态中示出的词序列与第二状态中示出的词序列在连结时出现的概率。
具体地,从状态M1中的“开始”到状态M2中的“因为是晴朗的”的转移发生的概率是0.6,并且从状态M1到状态M3中的“因为是下雨的”的转移发生的概率是0.4。即,关于状态M2中的词序列“因为是晴朗的”和状态M3中的词序列“因为是下雨的”与初始状态连结出现的概率,状态M2中的词序列“因为是晴朗的”具有高于状态M3中的词序列“因为是下雨的”的概率。
从状态M2中的“因为是晴朗的”到状态M4中的“所以我去散步”的转移发生的概率、从状态M2到状态M5中的“所以我去购物”的转移发生的概率、以及从状态M2到状态M6中的“所以我睡觉”的转移发生的概率分别是0.5、0.4以及0.1。即,如果输入状态M2中的词序列“因为是晴朗的”,那么状态M4中的词序列“所以我去散步”或状态M5中的词序列“所以我去购物”连结出现的概率很高。相反,如果输入状态M2中的词序列“因为是晴朗的”,那么状态M6中的词序列“所以我睡觉”连结出现的概率很低。因此,在图12示出的示例中,状态M4中的词序列“所以我去散步”与状态M2中的词序列“因为是晴朗的”连结出现的概率和状态M5中的词序列“所以我去购物”与状态M2中的词序列“因为是晴朗的”连结出现的概率很高,分别是0.5和0.4。相反,状态M6中的词序列“所以我睡觉”与状态M2中的词序列“因为是晴朗的”连结出现的概率很低,是0.1。
同样地,从状态M3中的“因为是下雨的”到状态M4中的“所以我去散步”的转移发生的概率、从状态M3到状态M5中的“所以我去购物”的转移发生的概率、以及从状态M3到状态M6中的“所以我睡觉”的转移发生的概率分别是0.1、0.6以及0.3。即,如果输入状态M3中的词序列“因为是下雨的”,那么状态M5中的词序列“所以我去购物”或状态M6中的词序列“所以我睡觉”连结出现的概率很高。相反,如果输入状态M3中的词序列“因为是下雨的”,那么状态M4中的词序列“所以我去散步”连结出现的概率很低。因此,在图12示出的示例中,状态M5中的词序列“所以我去购物”与状态M3中的词序列“因为是下雨的”连结出现的概率和状态M6中的词序列“所以我睡觉”与状态M3中词序列“因为是下雨的”连结出现的概率很高,分别是0.6和0.3。相反,状态M4中的词序列“所以我去散步”与状态M3中的词序列“因为是下雨的”连结出现的概率很低,是0.1。
作为使用在图12中示出的隐马尔可夫概率模型的结果,通过状态M2中的“因为是晴朗的”与状态M4中的“所以我去散步”的连结生成的整个语句“因为是晴朗的,所以我去散步。”的得分是0.6×0.5=0.3。通过状态M2中的“因为是晴朗的”与状态M5中的“所以我去购物”的连结生成的整个语句“因为是晴朗的,所以我去购物。”的得分是0.6×0.4=0.24。通过状态M2中的“因为是晴朗的”与状态M6中的“所以我睡觉”的连结生成的整个语句“因为是晴朗的,所以我睡觉。”的得分是0.6×0.1=0.06。因此,从这三个语句当中选择具有最高得分的语句“因为是晴朗的,所以我去散步。”,并且提取包含在该语句中的词性序列“因为是晴朗的”和“所以我去散步”。
同样地,通过状态M3中的“因为是下雨的”与状态M4中的“所以我去散步”的连结生成的整个语句“因为是下雨的,所以我去散步。”的得分是0.4×0.1=0.04。通过状态M3中的“因为是下雨的”与状态M5中的“所以我去购物”的连结生成的整个语句“因为是下雨的,所以我去购物。”的得分是0.4×0.6=0.24。通过状态M3中的“因为是下雨的”与状态M6中的“所以我睡觉”的连结生成的整个语句“因为是下雨的,所以我睡觉。”的得分是0.4×0.3=0.12。因此,从这三个语句当中选择具有最高得分的语句“因为是下雨的,所以我去购物。”,并且提取包含在该语句中的词性序列“因为是下雨的”和“所以我去购物”。
在该实施例中,如在上述隐马尔可夫模型中那样,采用用于对整个文档执行词法分析并以词性为单位提取词的方法,作为用于在前述词提取处理中提取词的方法。然而,用于提取词的方法不特别限于根据该实施例的示例。例如,利用对超级链接的限制,可采用用于仅提取链接被设置的词的方法。如果采用该方法,那么可使用链接被设置到特征词的、诸如“维基百科(Wikipedia)”的自由百科全书的方法。
在任何词提取方法中,要通过词提取处理而提取的词可覆盖文档中的全部词或满足预定标准的多个词。
作为前述词提取处理的结果,在本实施例中,如图13A到13C所示,从文档X、Y以及Z提取词。
图13A到13C是示出词提取处理的结果的图。
如图13A所示,从文档X提取词“毕业”、“演出”、“RW音乐节”、
“写真集”以及“形象大使”。
如图13B所示,从文档Y提取词“东京”、“日本国家足球队”、“电影金像奖”、“女主人公”以及“钢琴家”。
如图13C所示,从文档Z提取词“北海道”、“日本国家队”、“连续出场”、“歌手”以及“TV商业节目”。
回头参照到图7中的流程图,在步骤S4中的词提取处理之后,在步骤S5中,词得分计算单元84计算各个提取出的词的词得分。
现在,将描述计算各个提取出的词的词得分的处理(在下文中,被称为词得分计算处理)的具体示例。
根据现有技术,对整个文档群执行IDF值的计算。然而,在根据该实施例的服务器13中,词得分计算单元84对类别执行IDF值的计算。因此,词得分计算单元84针对类别计算出的IDF值被称为F值。由以下表达式(2)表示F值。
F t , c = log ( Π c ∈ T N c d f t , c ) · · · ( 2 )
在表达式(2)中,T表示文档所属的类别集合,C表示文档所属的类别,NC表示属于类别C的文档的总数,并且dft,c表示属于类别C的文档当中包含词t的文档的数量。因此,可把F值(即,由表达式(2)表示的Ft,c)看作通过模型化词t在类别中的出现频率而获得的值。在该实施例中,使用表达式(2)计算出的F值用作词得分。
例如,在Nc个文档所属的类别C中,当包含词t的文档的数量dft,c较大时,确定词t为具有高普通度的词。在Nc个文档所属的类别C中,当包含词t的文档的数量dft,c很大时,根据表达式(2),作为词得分的F值很小。
相反,在Nc个文档所属的类别C中,当包含词t的文档的数量dft,c较小时,确定词t为具有高稀有度的词。在Nc个文档所属的类别C中,当包含词t的文档的数量dft,c很小时,根据表达式(2),作为词得分的F值很大。
如上所述,随着词得分越高,词t的稀有度越高,并且随着词得分越低,词t的普通度越高。因此,词得分用作词t的普通性和稀有性的指标。
此外,可将具有高的作为F值的词得分的词t识别为具有高兴趣度的词。即,在使用IDF值的现有技术中,在全部语句中确定具有低出现频率的词为具有高稀有度的词而不管类别。例如,可存在在特定类别中经常出现而在另一类别中完全不出现的词。这样的词在该类别中具有高出现频率,而在全部语句中具有低出现频率,因此,根据现有技术,该词被确定为具有高稀有度的词。这样的词可能在全部语句中确实稀有,但是因为它在该类别的语句中经常出现,因此该词不被确定为具有高兴趣度的词。即,在现有技术中,即使词被确定为具有低出现频率的词,该词也不绝对被确定为具有高兴趣度的词。
相反,关于具有使用表达式(2)计算出的高词得分的词t,计算该词在类别中的出现频率。因此,高稀有度意味着在类别中的低出现频率。此外,这意味着在属于该类别的文档中的出现是令人感兴趣的。即,具有高词得分和高稀有度的词被确定为具有高兴趣度的词。
在该实施例中,使用表达式(2)计算词得分,但是不特别限制计算方法,并且可使用用于模型化词在类别中的出现频率的任意方法。例如,在表达式(2)中,使用关于各个得分的总积的常用对数,其中一个类别C中的(NC/dft,C)被称为得分。然而,在表达式(2)中使用常用对数的原因是使各个类别中的得分的不均匀性变均匀。因此,对于计算词得分,使用常用对数不是必须的。替选地,可基于各个得分的简单总和或利用施加到重要类别的权重的各个得分的总积而非根据该实施例的各个得分的总积,计算词得分。
在下文中,将参照图14详细描述词得分计算处理。
图14是示出被分类成类别的文档的数量的示例的图。
在图14示出的示例中,文档被分类成“男演员/女演员”、“歌手”、“模特”以及“钢琴家”四个类别,并且被分类成各个类别的文档的数量被示出为“文档的总数”。此外,在被分类成各个类别的文档当中,包含词“初次登场”、“表演”以及“莫扎特”的文档的数量分别被示出为“包含“初次登场”的文档的数量”、“包含“表演”的文档的数量”以及“包含“莫扎特”的文档的数量”。
例如,根据在图10A到10D以及图11A到11C中示出的前述示例,文档Y被分类成两个类别“男演员/女演员”和“钢琴家”。在这样的情况下,根据表达式(2),包含在文档Y中的词“初次登场”的F值是log(200/150×30/25)=0.2041。
当以上述方式执行词得分计算处理时,例如,计算出在图15中示出的词得分。图15是示出词得分计算处理的结果的图。
这里,选择文档Y作为处理对象。通过仅关于特征名词短语而不是关于包含在文档中的全部词的计算来获得在图15中示出的词得分。即,针对包含在文档Y中的词“东京”、“足球”、“日本国家队”、“音乐大学”、“初次登场”、“电影金像奖”、“女演员奖”、“女主人公”、“钢琴家”以及“协奏曲”计算作为F值的词得分。
在图15示出的示例中,“东京”的词得分是1.20,“足球”的词得分是4.80,“日本国家队”的词得分是5.20,“音乐大学”的词得分是3.50以及“初次登场”的词得分是2.60。另外,“电影金像奖”的词得分是3.40,“女演员奖”的词得分是3.80,“女主人公”的词得分是2.70,“钢琴家”的词得分是4.90以及“协奏曲”的词得分是4.20。
如图15所示,在被分类成类别“男演员/女演员”和“钢琴家”的文档Y中,具有最低词得分的“东京”被识别为具有最高普通度的词,并且具有最高词得分的“日本国家队”被识别为具有最高稀有度的词,即,具有最高兴趣度的词。
返回参照图7中的流程图,在步骤S5中的前述词得分计算处理之后,在步骤S6中,运算得分用语句提取单元85从作为处理对象的文档提取一个或多个语句。具体地,运算得分用语句提取单元85提取以句号结束的字符串作为一个语句。另外,运算得分用语句提取单元85提取逐条列举的列表项目作为一个语句。要提取的语句可以是包含在作为处理对象的文档中的一个语句或多个语句。注意,由于在步骤S7(下面描述)中基于包含在提取出的语句中的词得分而计算语句得分,因此优选的是,提取具有类似词数的语句。
在步骤S7中,语句得分计算单元86通过使用包含在语句中的词的词得分,计算各个提取出的语句的语句得分。在下文中,在步骤S7中执行的处理将被称为语句得分计算处理。
例如,语句得分计算单元86根据以下表达式(3)计算语句得分。
Score = Σ i ∈ N F i 2 N - - - ( 3 )
在表达式(3)中,Score表示语句得分,N表示已在语句中计算出其词得分的词的数量,并且Fi表示F值,其是计算出的词得分。
如从表达式(3)的右侧的根中的分子清楚的是,随着包含在语句中的每个词的词得分Fi越高,语句得分越高。因此,如上所述,具有高词得分Fi的词被确定为具有高稀有度和高兴趣度的词,并且因此,具有高语句得分的语句被确定为具有高稀有度和高兴趣度的语句。
相反,随着包含在语句中的每个词的词得分Fi越低,语句得分越低。因此,具有低词得分Fi的词被确定为具有高普通度的词,并且因此,具有低语句得分的语句被确定为具有高普通度的语句。
如表达式(3)所示,在该实施例中,采用用于计算词得分的均方根的方法作为用于计算语句得分的方法。然而,用于计算语句得分的方法不限于此。例如,可采用用于计算词得分的简单算术平均的方法。
返回参照图7中的流程图,在步骤S7中的语句得分计算处理之后,在步骤S8中,语句得分列表生成单元87生成包含在作为处理对象的文档中的各个语句的语句得分的列表。
图16是示出语句得分的列表的图。
如图16所示,使用表达式(3)计算各个提取出的语句的语句得分。为各个提取出的语句分配号码。1号语句“演员y是来自东京的日本女演员。”的语句得分是1.20。2号语句“她的父亲是GG,他是日本国家足球队的成员。”的语句得分是5.00。3号语句“在2001年,她毕业于HH音乐大学,并且作为演员初次登场。”的语句得分是3.08。4号语句“在2004年,她获得日本电影金像奖新人女演员奖。”的语句得分是3.60。5号语句“在2005年,她扮演电影II中的女主人公JJ,并且引起轰动。”的语句得分是2.70。6号语句“她还作为钢琴家而著名,并且在2006年音乐会中演奏了KK协奏曲。”的语句得分是4.56。
如图16所示,在1号到6号语句当中,具有最低语句得分的1号语句被确定为具有最高普通度的语句。在1号到6号语句当中,具有最高语句得分的2号语句被确定为具有最高稀有度和最高兴趣度的语句。
返回参照图7中的流程图,在步骤S8中生成语句得分的列表之后,在步骤S9中,文档获得单元81确定全部文档是否被选择作为处理对象。
如果在步骤S9中确定没有将全部文档选择作为处理对象,那么处理返回到步骤S3,并且重复处理。即,包含在步骤S1中获得的文档群中的文档被相继选择作为处理对象,重复从步骤S3到步骤S9的循环处理,并且计算语句得分。当关于最后文档的步骤S8结束时,针对包含在步骤S1中获得的文档群中的全部文档的语句得分的计算结束。然后,在步骤S9中确定全部文档被选择作为处理对象,并且语句得分计算处理结束。
以该方式,服务器13提取具有在语句得分计算处理中计算出的高语句得分的语句,由此能够呈现具有高稀有度和高兴趣度的语句,即,对用户来说更引起兴趣的语句。
在下文中,将给出使用通过前述语句得分计算处理计算出的语句得分来提取语句的处理(在下文中,被称为语句提取处理)的示例的描述。以下示例是当用户操作移动终端12以搜索文档等时服务器13执行的处理。
语句提取处理
图17是示出服务器13的要呈现语句提取单元88执行的语句提取处理的示例的流程图。
在步骤S61中,搜索单元121接收用以搜索文档的指示。即,搜索单元121经由通信单元59从移动终端12接收用以搜索文档的指示。
在步骤S62中,搜索单元121搜索文档。即,搜索单元121基于从移动终端12提供的指示,在存储在存储单元58中的文档群搜索文档。
在步骤S63中,提取单元122提取文档。即,提取单元122从存储单元58提取搜索单元121搜索到的文档。
在步骤S64中,提取单元122提取文档的文档得分的列表。即,提取单元122从存储单元58提取在步骤S63中提取出的文档的文档得分的列表。
在步骤S65中,评价单元123评价文档的普通度。评价普通度等效于评价稀有度。
现在,将描述用于评价文档的普通度的方法的一些具体示例。
例如,作为用于评价文档的普通度的方法,可采用用于使用作为评价对象的文档在网站上的参考数的方法。根据该方法,如果作为评价对象的文档是网页,那么使用被链接的次数计算参考数。因此,如果对作为评价对象的文档的参考数大于阈值,那么文档被评价为具有高普通度的文档。如果对文档的参考数等于或小于阈值,那么文档被评价为具有高稀有度的文档。在该实施例中,在图7中的步骤S1的时刻获得被链接的次数。然而,获得数量的定时不特别限于该实施例的示例,并且在步骤S65的时刻之前的任意定时都是可接受的。
另外,如果通过使用因特网上的网站的典型搜索引擎来搜索作为评价对象的文档,那么可采用用于使用点击数的方法作为用于评价文档的普通度的方法。根据该方法,如果作为评价对象的文档的点击数大于阈值,那么文档被评价为具有高普通度的文档。如果点击数等于或小于阈值,那么文档被评价为具有高稀有度的文档。在该实施例中,在图7中的步骤S1的时刻获得点击数。然而,获得数量的定时不特别限于该实施例的示例,并且在步骤S65的时刻之前的任意定时都是可接受的。
另外,如果作为评价对象的文档是博客网站中的文档,那么可采用用于使用文档的出现数的方法作为用于评价文档的普通度的方法。根据该方法,如果在预定时段期间在博客网站中与作为评价对象的文档相关的信息的出现数大于阈值,那么文档被评价为具有高普通度的文档。如果出现数等于或小于阈值,那么文档被评价为具有高稀有度的文档。在该实施例中,在图7中的步骤S1的时刻获得预定时段期间在博客网站中的出现数。然而,获得数量的定时不特别限于该实施例的示例,并且在步骤S65的时刻之前的任意定时都是可接受的。
通过前述方法获得的文档的普通度的评价结果用作表示文档本身受欢迎度的指标。例如,如果作为评价对象的文档是关于预定人物的文档,并且如果文档被评价为具有高普通度的文档,那么可估计该预定人物是名人。因此,在该情况下,具有高稀有度和高兴趣度的语句而不是用于介绍该人物的广泛的一般语句更适合作为要呈现给用户的语句。这是因为关于名人的广泛的一般语句已经是可得到的,并且这样的语句作为要提供的信息的价值很低。另外,这是因为具有高兴趣度的语句不是如此广泛的,并且该语句作为要提供的信息的价值很高。即,在该情况下,优选的是,向用户呈现具有高语句得分的语句。因此,在该实施例中,执行从步骤S66到S68的以下处理。
在步骤S66中,评价单元123根据评价结果确定文档的普通度是高或低。
如果在步骤S66中确定文档的普通度高,那么处理进行到步骤S67。
在步骤S67中,提取单元122从文档提取具有高稀有度的语句。即,提取单元122从文档提取具有文档的语句得分的列表中的高语句得分的语句。
另一方面,如果在步骤S66中确定文档的普通度不高,那么处理进行到步骤S68。
在步骤S68中,提取单元122从文档提取具有高普通度的语句。即,提取单元122从文档提取具有文档的语句得分的列表中的低语句得分的语句。
例如,假设在步骤S63中提取在图8B中示出的关于演员y的文档Y,并且因为演员y是名人,因此在步骤S65中确定文档Y的普通度为高。在该情况下,在步骤S66中获得的确定结果为是,并且在步骤S67中从文档提取具有图16示出的语句得分的列表中的最高语句得分的语句,即,2号语句。在提取多个语句的情况下,以语句得分的降序提取语句,即,提取具有N个最高语句得分的语句(N是一或更大的整数值)。具体地,在前述示例中,按顺序提取具有最高语句得分的2号、6号、4号...语句。
另一方面,假设文档Y中描述的演员y是未被认出的和没有成就的演员,并且在步骤S65中文档Y的普通度被评价为低。在该情况下,在步骤S66中获得的确定结果为否,并且在步骤S68中从文档提取具有图16示出的语句得分的列表中的最低语句得分的语句,即,1号语句。在提取多个语句的情况下,以语句得分的升序提取语句,即,提取具有M个最低语句得分的语句(M是一或更大的整数值)。具体地,在前述示例中,按顺序提取具有最低语句得分的1号、5号、3号...语句。
在步骤S69中,通信单元59传送提取出的语句。即,通信单元59将在步骤S67或S68中提取的语句传送到移动终端12。
因此,语句提取处理结束。
在前述示例中,为了简单说明,在步骤S62中搜索的文档的数量是一个。然而,可搜索多个文档。在该情况下,对多个文档的每个执行从步骤S63开始的处理。
以该方式,通过基于文档的普通度的评价结果而提取要呈现给用户的语句,呈现对用户来说更引起兴趣的语句。即,如果搜索到的文档的普通度高,那么可以向用户呈现具有高稀有度的语句,即,具有高兴趣度的语句。另一方面,如果搜索到的文档的普通度低,那么可以向用户呈现具有高普通度的语句。
接下来,将给出如下处理的描述:在用户使用移动终端12正观看和收听电视节目的同时,在显示单元33上显示关于正在电视节目中演出的预定演出者的信息。
在该情况下,需要在为显示电视节目设定较高优先级的同时,显示关于预定演出者的信息,因此,限制了语句的显示区。因此,服务器13需要执行如下处理(在下文中,被称为可显示语句提取处理):其从关于预定演出者的文档提取对用户来说更引起兴趣的一个或多个语句,并且呈现满足移动终端12的显示区的条件的一个或多个语句。在下文中,将描述可显示语句提取处理。
可显示语句提取处理
图18是示出服务器13的要呈现语句提取单元88执行的可显示语句提取处理的示例的流程图。
在步骤S91中,搜索单元121接收用以搜索关于演出者的文档的指示。即,搜索单元121经由通信单元59接收用以搜索关于从移动终端12指定的预定演出者的文档的指示。
在步骤S92中,通信单元59获得关于移动终端12的设备信息。移动终端12的设备信息包括显示区的条件。显示区的条件包括可以在移动终端12的显示单元33上显示的语句的数量和字符的数量。
在步骤S93中,搜索单元121搜索关于演出者的文档。即,搜索单元121基于指示,在存储在存储单元58中的文档群搜索关于指定的演出者的文档。
在步骤S94中,提取单元122提取关于演出者的文档。即,提取单元122从存储单元58提取搜索单元121搜索到的关于演出者的文档。
在步骤S95中,提取单元122提取关于演出者的文档的语句得分的列表。即,提取单元122从存储单元58提取在步骤S94中提取出的关于演出者的文档的语句得分的列表。
在步骤S96中,评价单元123评价演出者的受欢迎度。评价受欢迎度等效于评价知名度。
例如,作为用于评价演出者的受欢迎度的方法,可采用用于使用因特网上的名人评价网站中的受欢迎度排序的方法。根据该方法,如果预定演出者的受欢迎度排序高于阈值,那么评价演出者的受欢迎度高。在该实施例中,在图7中的步骤S1的时刻获得评价网站中的受欢迎度排序。然而,获得受欢迎度排序的定时不限于该实施例的示例,并且在步骤S96的时刻之前的任意定时都是可接受的。
在步骤S97中,评价单元123确定演出者的受欢迎度是高或低。
如果在步骤S97中确定演出者的受欢迎度高,那么处理进行到步骤S98。
在步骤S98中,提取单元122从文档提取具有高稀有度的语句。即,提取单元122从文档具有提取文档的语句得分的列表中的高语句得分的语句。在提取多个语句的情况下,以语句得分的降序提取语句。具体地,在图16示出的示例中,按顺序提取具有最高语句得分的2号、6号、4号...语句。
另一方面,如果在步骤S97中确定演出者的受欢迎度不高,那么处理进行到步骤S99。
在步骤S99中,提取单元122从文档提取具有高普通度的语句。即,提取单元122从文档提取具有文档的语句得分的列表中的低语句得分的语句。在提取多个语句的情况下,以语句得分的升序提取语句。具体地,在图16示出的示例中,按顺序提取具有最低语句得分的1号、5号、3号...语句。
在步骤S100中,存储控制单元124登记全部提取出的语句作为要显示的候选。即,存储控制单元124将提取单元122提取出的语句存储在存储单元58中,作为要在移动终端12上显示的候选。
在步骤S101中,选择单元125从候选语句当中选择满足显示区的条件的一个或多个语句,并且传送所选择的语句。即,选择单元125经由通信单元59将所选择的语句传送到移动终端12。例如,如果在显示区的条件下可以显示的语句的数量是两个,那么即使五个语句被登记为候选,也传送两个语句。在该情况下,从候选语句当中选择具有最高或最低语句得分的两个语句,并且传送所选择的语句。即,基于移动终端12的显示区的条件,选择具有包含在语句得分的列表中的语句得分中的N个最高语句得分的语句(N是一或更大的值)或M个最低语句得分的语句(M是一或更大的值),并且传送所选择的语句。即,基于移动终端12的显示区的条件,确定N或M的值。
现在,将参照图19描述移动终端12的显示示例。
图19是示出移动终端12的显示示例的图。
在图19示出的示例中,在移动终端12的显示单元33上显示正在电视节目中演出的演出者161。在显示单元33下部的区域181和182中,当用户搜索关于演出者161的信息时,显示关于演出者161的语句。即,在图19示出的示例中,在移动终端12的显示区的条件下可以显示的语句的数量是两个。在区域181和182的右端分别显示“下一个”按钮191和192的图标。当用户操作“下一个”按钮191或192时,在区域181或182中显示的语句被切换到随后排序的语句。
这里,假设演出者161是非常受欢迎的演员y。在该情况下,在步骤S100中被登记作为要显示的候选的语句是图16中示出的、从关于演员y的文档Y以语句得分的降序提取的语句,即,2号、6号以及4号语句。因此,在步骤S101中传送的语句是2号和6号语句。在区域181中显示2号语句并且在区域182中显示6号语句。
在步骤S102中,选择单元125确定是否传送了全部语句。即,选择单元125确定是否传送了被登记作为要显示的候选的全部语句。
如果在步骤S102中确定传送了被登记作为要显示的候选的全部语句,那么处理结束。
另一方面,如果在步骤S102中确定没有传送被登记作为要显示的候选的全部语句,那么处理进行到步骤S103。
在步骤S103中,选择单元125确定是否接收到“下一个”按钮的指示。即,选择单元125确定是否经由通信单元59从移动终端12接收到“下一个”按钮的指示。
如果在步骤S103中确定没有从移动终端12接收到“下一个”按钮的指示,即,如果用户没有操作“下一个”按钮191或192,那么处理结束。
另一方面,如果在步骤S103中确定从移动终端12接收到“下一个”按钮的指示,即,如果用户操作了“下一个”按钮191或192,那么处理进行到步骤S104。
在步骤S104中,选择单元125传送下一个语句。即,选择单元125经由通信单元59传送还没有被传送到移动终端12的候选语句当中的下一个语句。例如,如果用户操作“下一个”按钮192,那么在步骤S104中传送的语句是候选语句当中还没有被传送的4号语句。然后,在区域182中,由4号语句替换6号语句。
因此,可显示语句提取处理结束。
在前述示例中,为了简单说明,在步骤S93中搜索的关于演出者的文档的数量是一个。然而,可搜索多个文档。在该情况下,对多个文档的每个执行从步骤S93开始的处理。
可显示语句提取处理的前述示例是如下处理:其在显示单元33上显示关于预定演出者的信息,该预定演出者正在移动终端12上显示的电视节目中演出。然而,显示的信息不限于关于正在电视节目中演出的演出者的信息,并且例如可显示关于网站或电影的信息。
以该方式,通过基于演出者的受欢迎度的评价结果而提取要呈现给用户的语句,在具有有限显示区的移动终端上呈现对用户来说更引起兴趣的语句。即,如果搜索到的演出者的受欢迎度高,那么可以向用户呈现具有高稀有度的语句,即,具有高兴趣度的语句。相反,如果受欢迎度低,那么可以向用户呈现具有高普通度的语句。
本发明的实施例可应用到能够搜索语句的设备,诸如电子记事簿、个人数字助理(PDA)、头戴式显示器、以及移动个人计算机、还有移动电话和智能电话。
对根据本发明的实施例的程序的应用
可以通过硬件或软件执行上述系列处理。
在通过软件执行系列处理的情况下,构成软件的程序经由网络或记录介质被安装到合并在专用硬件中的计算机中、或通过安装有各种程序而能够执行各种功能的多用个人计算机中。
记录介质包括在图3中示出的可拆卸介质61,其与设备的主体分离、被分布以为用户提供程序并且存储该程序,该可拆卸介质61诸如磁盘(包括软盘)、光盘(包括致密盘只读存储器(CD-ROM)、数字多功能盘(DVD)以及磁光盘(迷你盘(MD),注册商标))、或半导体存储器,并且该记录介质还包括存储程序的ROM 52和包括在存储单元58中的硬盘,它们在被合并在设备的主体中的同时被提供给用户。
在该说明书中,处理中的各个步骤可根据所述次序以时间顺序被执行,或者可并行或单独地被执行。
在该说明书中,系统意味着包括多个设备的整个配置。
本申请包含与2009年10月28日向日本专利局提交的日本优先权专利申请JP 2009-247755中公开的主题内容相关的主题内容,在此通过引用将其全文合并于此。
本领域的技术人员应该理解,在所附权利要求或其等同方案的范围内,根据设计需要和其它因素,可进行各种修改、组合、子组合以及变更。

Claims (6)

1.一种信息处理设备,包括:
类别分类装置,其用于将文档分类成多个类别当中的一个或多个类别;
词提取装置,其用于从所述文档提取一个或多个词;
词得分计算装置,其用于基于词在所述类别分类装置将所述文档分类成的所述一个或多个类别的每个中的出现频率,计算所述词提取装置从所述文档提取出的所述一个或多个词的每个的词得分,其中所述词得分用作所述词的兴趣性的指标;
运算用语句提取装置,其用于从所述文档提取一个或多个语句;以及
语句得分计算装置,其用于基于所述词得分计算装置计算出的所述词得分,计算所述运算用语句提取装置提取出的所述一个或多个语句的每个的语句得分,其中所述语句得分用作语句的兴趣性的指标。
2.根据权利要求1所述的信息处理设备,其中,所述类别分类装置包括:
获得装置,其用于获得列表,所述列表包含能够指定所述多个类别的任意的多个关键词,以及
分类装置,其用于在所述文档包含与包含在所述列表中的所述多个关键词的任意匹配的词的情况下,将所述文档分类成由与所述词匹配的关键词指定的类别。
3.根据权利要求2所述的信息处理设备,还包括:
语句得分列表生成装置,其用于针对所述文档生成所述语句得分计算装置计算出的一个或多个语句得分的列表。
4.根据权利要求3所述的信息处理设备,还包括:
要呈现语句提取装置,其用于在所述文档的普通度高的情况下,从所述文档提取具有包含在所述语句得分列表生成装置生成的所述列表中的所述一个或多个语句得分中的N个最高得分的一个或多个语句,其中N是一或更大的整数值,并且如果所述文档的普通度低,那么从所述文档提取具有包含在所述列表中的所述一个或多个语句得分中的M个最低得分的一个或多个语句,其中M是一或更大的整数值;以及
呈现装置,其用于呈现所述要呈现语句提取装置提取出的所述一个或多个语句。
5.根据权利要求4所述的信息处理设备,
其中,所述要呈现语句提取装置基于要由所述呈现装置执行的呈现的条件,确定N或M的值。
6.一种信息处理方法,包括以下步骤:
将文档分类成多个类别当中的一个或多个类别;
从所述文档提取一个或多个词;
基于词在所述类别分类步骤将所述文档分类成的所述一个或多个类别的每个中的出现频率,计算在所述词提取步骤中从所述文档提取出的所述一个或多个词的每个的词得分,其中所述词得分用作所述词的兴趣性的指标;
从所述文档提取一个或多个语句;以及
基于在所述词得分计算步骤中计算出的所述词得分,计算在所述语句提取步骤中提取出的所述一个或多个语句的每个的语句得分,其中所述语句得分用作语句的兴趣性的指标。
CN2010105302033A 2009-10-28 2010-10-21 信息处理设备、信息处理方法以及程序 Expired - Fee Related CN102054018B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-247755 2009-10-28
JP2009247755A JP2011095905A (ja) 2009-10-28 2009-10-28 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
CN102054018A CN102054018A (zh) 2011-05-11
CN102054018B true CN102054018B (zh) 2013-05-01

Family

ID=43899156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105302033A Expired - Fee Related CN102054018B (zh) 2009-10-28 2010-10-21 信息处理设备、信息处理方法以及程序

Country Status (3)

Country Link
US (1) US9122680B2 (zh)
JP (1) JP2011095905A (zh)
CN (1) CN102054018B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
CN102355517A (zh) * 2011-07-01 2012-02-15 宇龙计算机通信科技(深圳)有限公司 信息分类装置、信息分类方法和终端
JP5250709B1 (ja) * 2012-03-12 2013-07-31 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
US9348811B2 (en) * 2012-04-20 2016-05-24 Sap Se Obtaining data from electronic documents
US20140289260A1 (en) * 2013-03-22 2014-09-25 Hewlett-Packard Development Company, L.P. Keyword Determination
US9727641B2 (en) * 2013-04-25 2017-08-08 Entit Software Llc Generating a summary based on readability
JP2014241040A (ja) * 2013-06-11 2014-12-25 株式会社東芝 情報処理装置、方法、及びプログラム
JP6040138B2 (ja) * 2013-10-17 2016-12-07 日本電信電話株式会社 文書分類装置、文書分類方法および文書分類プログラム
WO2016084519A1 (ja) * 2014-11-27 2016-06-02 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2016181475A1 (ja) * 2015-05-11 2016-11-17 株式会社東芝 情報提示装置、情報提示方法およびプログラム
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
JP6613833B2 (ja) * 2015-11-11 2019-12-04 大日本印刷株式会社 情報処理装置、情報処理システム、及びプログラム
CN106484139B (zh) * 2016-10-19 2019-01-29 北京新美互通科技有限公司 表情符号推荐方法及装置
CN108470002B (zh) * 2018-03-19 2022-05-03 南京邮电大学 一种面向Selenium IDE的XML测试脚本质量评判方法
US11270078B2 (en) * 2019-05-18 2022-03-08 Exxonmobil Upstream Research Company Method and system for generating a surprisingness score for sentences within geoscience text
JP7096222B2 (ja) * 2019-09-30 2022-07-05 Kddi株式会社 リスク評価装置、リスク評価方法及びリスク評価プログラム
US20220036008A1 (en) * 2020-07-31 2022-02-03 GeoScienceWorld Method and System for Generating Geological Lithostratigraphic Analogues using Theory-Guided Machine Learning from Unstructured Text

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3598742B2 (ja) * 1996-11-25 2004-12-08 富士ゼロックス株式会社 文書検索装置及び文書検索方法
US8275661B1 (en) * 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
US6924828B1 (en) * 1999-04-27 2005-08-02 Surfnotes Method and apparatus for improved information representation
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
US7140044B2 (en) * 2000-11-13 2006-11-21 Digital Doors, Inc. Data security system and method for separation of user communities
US7308451B1 (en) * 2001-09-04 2007-12-11 Stratify, Inc. Method and system for guided cluster based processing on prototypes
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
JP2004164036A (ja) * 2002-11-08 2004-06-10 Hewlett Packard Co <Hp> 文書の共通性評価方法
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US8612208B2 (en) * 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US20050246333A1 (en) * 2004-04-30 2005-11-03 Jiang-Liang Hou Method and apparatus for classifying documents
JP2006011851A (ja) * 2004-06-25 2006-01-12 Oki Electric Ind Co Ltd 文書合致度演算システム、文書合致度演算方法及び文書合致度演算プログラム
US20060069678A1 (en) * 2004-09-30 2006-03-30 Wu Chou Method and apparatus for text classification using minimum classification error to train generalized linear classifier
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
JP4654780B2 (ja) * 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20070067293A1 (en) * 2005-06-30 2007-03-22 Hong Yu System and methods for automatically identifying answerable questions
US7813919B2 (en) * 2005-12-20 2010-10-12 Xerox Corporation Class description generation for clustering and categorization
US20080126319A1 (en) * 2006-08-25 2008-05-29 Ohad Lisral Bukai Automated short free-text scoring method and system
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
JP2008077252A (ja) 2006-09-19 2008-04-03 Ricoh Co Ltd 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
WO2008046104A2 (en) * 2006-10-13 2008-04-17 Collexis Holding, Inc. Methods and systems for knowledge discovery
US20080104506A1 (en) * 2006-10-30 2008-05-01 Atefeh Farzindar Method for producing a document summary
CA2675216A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
US8606796B2 (en) * 2008-09-15 2013-12-10 Kilac, LLC Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
KR101005337B1 (ko) * 2008-09-29 2011-01-04 주식회사 버즈니 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
US20100153365A1 (en) * 2008-12-15 2010-06-17 Hadar Shemtov Phrase identification using break points
US8326820B2 (en) * 2009-09-30 2012-12-04 Microsoft Corporation Long-query retrieval

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法

Also Published As

Publication number Publication date
CN102054018A (zh) 2011-05-11
JP2011095905A (ja) 2011-05-12
US9122680B2 (en) 2015-09-01
US20110099003A1 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
CN102054018B (zh) 信息处理设备、信息处理方法以及程序
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
Zhao et al. Topical keyphrase extraction from twitter
Cao et al. Context-aware query classification
Nie et al. Beyond text QA: multimedia answer generation by harvesting web information
US7519588B2 (en) Keyword characterization and application
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
Pu et al. Subject categorization of query terms for exploring Web users' search interests
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
Toda et al. A probabilistic approach for automatically filling form-based web interfaces
US20110004609A1 (en) Generating search results based on user feedback
US20100235343A1 (en) Predicting Interestingness of Questions in Community Question Answering
Bing et al. Web query reformulation via joint modeling of latent topic dependency and term context
Xu et al. Named entity mining from click-through data using weakly supervised latent dirichlet allocation
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
US20120316865A1 (en) Information processing apparatus, information processing method, and program
Zhu et al. Real-time personalized twitter search based on semantic expansion and quality model
Monti et al. An ensemble approach of recurrent neural networks using pre-trained embeddings for playlist completion
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
Kang et al. A hybrid approach for paper recommendation
Latha Experiment and Evaluation in Information Retrieval Models
Larsen References and citations in automatic indexing and retrieval systems-experiments with the boomerang effect
Kumar et al. Social book search: a survey
Sun et al. Topic-oriented exploratory search based on an indexing network
Hsu et al. Efficient and effective prediction of social tags to enhance web search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130501

Termination date: 20131021