CN101167075B - 专有表现抽取装置、方法以及程序 - Google Patents

专有表现抽取装置、方法以及程序 Download PDF

Info

Publication number
CN101167075B
CN101167075B CN2005800496646A CN200580049664A CN101167075B CN 101167075 B CN101167075 B CN 101167075B CN 2005800496646 A CN2005800496646 A CN 2005800496646A CN 200580049664 A CN200580049664 A CN 200580049664A CN 101167075 B CN101167075 B CN 101167075B
Authority
CN
China
Prior art keywords
proprietary
performance
extraction
proprietary performance
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800496646A
Other languages
English (en)
Other versions
CN101167075A (zh
Inventor
续木贵史
冲本纯幸
水谷研治
松浦聪
井上刚
九津见洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101167075A publication Critical patent/CN101167075A/zh
Application granted granted Critical
Publication of CN101167075B publication Critical patent/CN101167075B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种专有表现抽取装置,通过可以设定从文本中抽取专有表现的顺序,从而可以抽取适应用户的专有表现,该专有表现抽取装置包括:抽取顺序读取部(103),获得由抽取顺序存储部(102)存储的、与抽取顺序相对应的专有表现模式名;专有表现抽取部(105),使用与由抽取顺序读取部(103)获得的专有表现模式名相对应的专有表现模式,从输入文本中抽取专有表现;以及抽取结束判断部(106),在未结束抽取的情况下,向抽取顺序读取部(103)输出正在抽取的文本,继续进行专有表现抽取处理。

Description

专有表现抽取装置、方法以及程序
技术领域
本发明涉及一种专有表现抽取装置,可以抽取适应用户的专有表现。
背景技术
以往,在已经公开的专有表现抽取方法中,为了对应多个不同任务,对一个输入文本来操作多个专有表现抽取模块工作,从而可以汇集被抽取的专有表现(例如,参照专利文献1)。
在此,专有表现是指特定的语言项目,根据任务作为一个单位被处理,例如:专有名词,公司名称,电子邮件地址,国名,城市名,产品名,时间,日期,金额表现以及比率表现等。
专利文献1:(日本)特开2003-248680号公报
然而,在以往的专有表现抽取方法中,通过使多个专有表现抽取模块工作,从而可以对应多个不同任务,但是由于不能使要抽取专有表现的种类或单位与用户或显示终端器相对应来存储它们,因此不能抽取适应用户或显示终端的专有表现。因此,尤其在专有表现中存在专有表现的专有表现的嵌套结构中,在向用户显示所抽取的专有表现的情况下,用户需要看如下专有表现,即,包含对用户冗长的字符串的专有表现,或因字符数太短而无法理解意思的专有表现。例如,用电视节目信息举个例子,针对由主题与副题构成节目名的节目,对于只根据主题可以识别节目的用户来说副题是冗长的信息。反而,对于只根据主题无法识别节目的用户来说副题是必要的信息,因此必要向用户示出主题与副题。
发明内容
于是,鉴于上述情况,本发明的目的在于提供一种专有表现抽取装置,可以抽取适应抽取条件的专有表现,该抽取条件以用户的输入履历或显示终端的显示能力等来表示。
为了实现上述目的,本发明涉及的专有表现抽取装置,依次使用一个以上的专有表现模式,从一个以上的输入文本中抽取专有表现,所述专有表现模式示出在文本中包含的专有表现部分的判断标准,其特征在于,包括:抽取顺序设定单元,决定抽取顺序,该抽取顺序示出按照抽取条件不同的专有表现模式的使用顺序;以及专有表现抽取单元,根据以所述决定的抽取顺序所示的顺序,使用专有表现模式,从所述一个以上的输入文本中抽取专有表现。
发明的效果:根据该结构,由于可以按照抽取条件设定专有表现的抽取顺序,因此,例如对于存在嵌套结构的专有表现,在从字符串长度短的、或字符串长度长的专有表现中依次进行抽取的情况下,在可以抽取对于用户字符串长度适当的专有表现的阶段可以停止专有表现抽取处理,从而可以抽取对用户或显示终端最合适的专有表现。
附图说明
图1是实施例1的专有表现抽取装置的结构图。
图2是示出用于实施例1的专有表现抽取装置的、由抽取顺序存储部存储的抽取顺序的一个例子的图。
图3是示出用于抽取的规则的一个例子的图。
图4是示出用于抽取的规则的另一个例子的图。
图5是还示出用于抽取的规则的另一个例子的图。
图6是示出使用抽取人名的规则进行抽取的一个具体例子的图。
图7是实施例1的工作的流程图。
图8是示出实施例1的专有表现抽取装置用于抽取的规则的一个例子的图。
图9是示出用于实施例1的专有表现抽取装置的、由抽取顺序存储部存储的抽取顺序的一个例子的图。
图10是示出用于实施例1的专有表现抽取装置的、由抽取顺序存储部存储的抽取顺序的一个例子的图。
图11是示出用于实施例1的专有表现抽取装置的、抽取顺序读取部的一个例子的图。
图12是示出实施例1的工作例的流程图。
图13是示出用于实施例1的专有表现抽取装置的、使用模式数据库的内容的一个例子的图。
图14是示出用于实施例1的专有表现抽取装置的、抽取顺序数据库的内容的一个例子的图。
图15是示出用于实施例1的专有表现抽取装置的、使用模式数据库的内容的一个例子的图。
图16是示出用于实施例1的专有表现抽取装置的、抽取顺序数据库的内容的一个例子的图。
图17是示出用于实施例1的专有表现抽取装置的、由抽取顺序存储部存储的抽取顺序的一个例子的图。
图18是示出用于实施例1的专有表现抽取装置的、由抽取顺序存储部存储的抽取顺序的一个例子的图。
图19是示出用于实施例1的专有表现抽取装置的、抽取结束判断部的一个例子的图。
图20是示出实施例1的工作例的流程图。
图21是示出用于实施例1的专有表现抽取装置的、由抽取次数存储部存储的内容的一个例子的图。
图22是示出用于实施例1的专有表现抽取装置的、由抽取次数存储部存储的内容的一个例子的图。
图23是示出用于实施例1的专有表现抽取装置的、由抽取顺序存储部存储的内容的一个例子的图。
图24是示出用于实施例1的专有表现抽取装置的、由抽取顺序存储部存储的内容的一个例子的图。
图25是示出用于实施例1的专有表现抽取装置的、由抽取顺序存储部存储的抽取顺序的一个例子的图.
图26是实施例1的变形例涉及的专有表现抽取装置的结构图。
图27是本发明的实施例2的专有表现抽取装置的结构图。
图28是示出用于实施例2的专有表现抽取装置的、由抽取顺序存储部存储的抽取顺序的一个例子的图。
图29是示出实施例2的工作例的流程图。
图30A以及图30B是示出实施例2的专有表现显示例的图。
图31是本发明的实施例3的专有表现抽取装置的结构图。
图32是示出用于实施例3的专有表现抽取装置的、由抽取顺序存储部存储的内容的一个例子的图。
图33是示出实施例3的工作例的流程图。
图34是示出实施例3的专有表现的显示例的图。
图35是示出实施例3的专有表现的显示例的图。
图36是示出实施例3的专有表现的显示例的图。
图37A以及图37B是变形例的中文的输入文本的一个示例图。
符号说明
101输入部
102抽取顺序存储部
103抽取顺序读取部
104专有表现模型存储部
104A专有表现A模式
104B专有表现B模式
104C专有表现C模式
105专有表现抽取部
106抽取结束判断部
201判断部
202抽取次数存储部
203抽取次数更新部
204抽取顺序变更部
301使用模式数据库
302抽取顺序数据库
303文本检索部
304顺序总数获得部
305使用模式获得部
306信息数据库
308类似文本获得部
309显示部
401使用模式数据库
402抽取顺序数据库
403顺序总数获得部
404抽取结束判断部
405专有表现决定部
501专有表现存储部
502抽取结束判断部
503显示条件指定部
504专有表现获得部
505重复删除部
506显示部
具体实施方式
本发明的专有表现抽取装置,依次使用一个以上的专有表现模式,从一个以上的输入文本中抽取专有表现,所述专有表现模式示出在文本中包含的专有表现部分的判断标准,包括:抽取顺序设定单元,决定用于抽取专有表现专有表现模式的、按照抽取条件不同的抽取顺序;以及专有表现抽取单元,根据以所述决定的抽取顺序所示的顺序,使用专有表现模式,从所述一个以上的输入文本中抽取专有表现。
并且,也可以是,所述抽取条件是以下列内容中至少一个来表示的,即,使用所抽取的专有表现的用户、显示所抽取的专有表现的终端装置、输入文本的属性、输入文本的数量、以及过去专有表现被抽取过的次数。
并且,也可以是,所述输入文本表示构成电子节目指南的节目信息。
根据该结构,所述专有表现抽取装置,由于按照抽取条件设定用于抽取专有表现的专有表现模式的顺序,因此按照抽取条件,使用不同的专有表现模式可以获得不同的专有表现模式,所述抽取条件是以下列内容中至少一个来表示的,即,例如使用所抽取的专有表现的用户、显示所抽取的专有表现的终端装置、输入文本的属性、输入文本的数量、以及专有表现过去被抽取过的次数等。
该结构是,例如在所述输入文本表示构成电子节目指南的节目信息的情况下合适的。作为具体例子,在从节目信息抽取作为节目标题的专有表现时,通过向习惯于该节目的用户抽取并示出只由主题构成的、较短的专有表现,而向不是那样的用户抽取并示出由主题和副题构成的、较长的专有表现,则可以向用户示出反映内容的、长度适当的节目标题。
并且,若在显示所抽取的专有表现的终端装置是移动信息终端装置的情况下,只抽取并显示主题,在显示所抽取的专有表现的终端装置是家庭用电视广播接收装置的情况下,抽取并显示主题和副题,则可以减少如下不方便,即,在移动信息终端装置显示较长的节目标题,其结果由于便览性降低而使用户看不清内容。
并且,也可以是,所述专有表现抽取装置,还包括:专有表现模式存储单元,存储多个专有表现模式;以及抽取顺序存储单元,针对多个抽取条件的每个抽取条件,存储由所述专有表现模式存储单元存储的一个以上的专有表现模式的、用于抽取专有表现的顺序,并且,所述抽取顺序设定单元,在被提供所述多个抽取条件中的一个抽取条件后,针对被提供的抽取条件,将由所述抽取顺序存储单元存储的专有表现模式的顺序设定为所述抽取顺序。
并且,也可以是,所述专有表现抽取装置,还包括:专有表现模式存储单元,存储多个专有表现模式;抽取顺序存储单元,存储由所述专有表现模式存储单元存储的一个以上的专有表现模式的、用于抽取专有表现的顺序;以及抽取顺序变更单元,按照抽取条件变更由所述抽取顺序存储单元存储的专有表现模式的顺序,并且,所述抽取顺序设定单元,将变更后的专有表现模式的顺序设定为所述抽取顺序。
根据该结构,具体而言,通过使用多个抽取顺序中的、按照抽取条件的一个抽取顺序,或按照抽取条件变更抽取顺序,从而可以实现本发明的特征,即,通过按照抽取条件使用不同的专有表现模式,从而获得不同的抽取结果。
并且,也可以是,所述专有表现抽取装置,将识别用户的用户标识符作为抽取条件,进一步包括:用户识别单元,获得所述用户标识符,并且,所述抽取顺序存储单元,针对多个用户标识符的每个用户标识符,存储由所述专有表现模式存储单元存储的、一个以上的专有表现模式的顺序;所述抽取顺序设定单元,针对获得的用户标识符,将由所述抽取顺序存储单元存储的专有表现模式的顺序设定为所述抽取顺序,并且,还可以是,所述专有表现抽取装置,将显示所抽取的专有表现的终端装置的终端标识符作为抽取条件,进一步包括:终端标识符获得单元,获得所述终端标识符,并且,所述抽取顺序存储单元,针对多个终端标识符的每个终端标识符,存储由所述专有表现模式存储单元存储的、一个以上的专有表现模式的顺序;所述抽取顺序设定单元,针对获得的终端标识符,将由所述抽取顺序存储单元存储的专有表现模式的顺序设定为所述抽取顺序。
根据该结构,如上所述,可以抽取对每个用户以及终端装置合适的专有表现。
并且,也可以是,所述专有表现抽取装置,将输入文本的属性作为抽取条件,进一步包括:属性获得单元,获得所述输入文本的属性,并且,所述抽取顺序存储单元,针对多个属性的每个属性,存储由所述专有表现模式存储单元存储的、一个以上的专有表现模式的顺序;所述抽取顺序设定单元,针对获得的属性,将由所述抽取顺序存储单元存储的专有表现模式的顺序设定为所述抽取顺序。
根据该结构,在按照所述输入文本的属性,从该输入文本中可以适当地抽取专有表现的专有表现模式是不同的情况下,由于按照所获得的属性,可以使用从该属性的输入文本中可以适当地抽取专有表现的、特有的专有表现模式,因此有用于提高专有表现的抽取精度。
例如,如上所述,在所述输入文本表示构成电子节目指南的情况下,获得作为所述输入文本的属性的、在该节目信息中包含的节目范畴,按照所获得的节目范畴,使用从该属性的输入文本中可以适当地抽取专有表现的、特有的专有表现模式,从而可以获得良好的抽取结果。
并且,也可以是,所述专有表现抽取装置,将输入文本的数量作为抽取条件,进一步包括:信息数据库,存储多个文本;以及文本检索单元,从所述信息数据库中检索成为输入文本的、一个以上的文本,并且,所述抽取顺序存储单元,针对示出输入文本的数量的多个值的每个值,存储由所述专有表现模式存储单元存储的、一个以上的专有表现模式的顺序;所述抽取顺序设定单元,针对检索到的文本的数量,将由所述抽取顺序存储单元存储的专有表现模式的顺序设定为所述抽取顺序;所述专有表现抽取单元,以所述设定的抽取顺序所示的顺序,使用专有表现模式,从所述检索到的文本中抽取专有表现。
根据该结构,可以抽取具有按照输入文本的数量的长度的专有表现。为了容易区别所抽取的专有表现,最好是输入文本越多要抽取的专有表现越长,若根据该结构,则可以符合这些要求。
例如,如上所述,在所述输入文本表示构成电子节目指南,并且从该输入文本中抽取作为节目标题的专有表现时,若输入文本的数量少于预定的阈值则抽取只由本题构成的专有表现,若多于该阈值则抽取由本题和副题构成的专有表现,则可以减少如下不方便,即,在存在多个输入文本的情况下,抽取只由本题构成的多个同一专有表现因此用户不能区别它们。
并且,也可以是,所述专有表现抽取装置,将所述输入文本的数量作为抽取条件,进一步包括:信息数据库,存储多个文本;文本获得单元,从所述信息数据库中获得多个文本;显示单元,显示文本;以及类似文本获得单元,从由所述文本获得单元获得的多个文本中,将由在所述显示单元显示时类似的多个文本作为所述输入文本来获得,并且,所述抽取顺序存储单元,针对示出文本的数量的多个值的每个值,存储由所述专有表现模式存储单元存储的、一个以上的专有表现模式的顺序;所述抽取顺序设定单元,将针由所述类似文本获得单元获得的文本的数量由所述抽取顺序存储单元存储的专有表现模式的顺序设定为所述抽取顺序;所述专有表现抽取单元,以所述设定的抽取顺序所示的顺序,使用专有表现模式,从由所述类似文本获得单元获得的文本中抽取专有表现。
根据该结构,可以抽取具有按照输入文本(特别是类似的输入文本)的数量的长度的专有表现。为了容易区别所抽取的专有表现,最好是类似的输入文本越多要抽取的专有表现越长,若根据该结构,则可以符合这些要求。
并且,也可以是,所述专有表现抽取装置,将专有表现过去被抽取过的次数作为抽取条件,进一步包括:抽取次数计数单元,针对由所述抽取顺序存储单元存储的专有表现模式的每个专有表现模式,使用该专有表现模式,计数专有表现过去被抽取过的次数,并且,所述抽取顺序变更单元,按照所述计数到的数量变更由所述抽取顺序存储单元存储的专有表现模式的顺序。
根据该结构,通过变更抽取顺序,从而对以后的抽取不使用未用过抽取专有表现的专有表现模式,因此可以在减少用于抽取专有表现的计算量的同时,继续进行与到此为止的抽取相同的专有表现的抽取。
并且,也可以是,所述抽取顺序以如下顺序表示多个专有表现模式,根据该顺序在依次使用多个专有表现模式的情况下,可以期待每次使用时抽取更长的专有表现,所述专有表现抽取装置,还包括:抽取中止单元,在抽取了长度超过预定的阈值的专有表现的情况下,中止使用随后的专有表现模式进行抽取。
根据该结构,针对所述阈值,按照用户、终端装置等限制需要的长度,不抽取需要的长度以上的专有表现,从而可以在减少对抽取专有表现的计算量的同时,抽取需要的专有表现。
并且,本发明的专有表现抽取装置,依次使用一个以上的专有表现模式,从一个以上的输入文本中抽取专有表现,所述专有表现模式示出在文本中包含的专有表现部分的判断标准,包括:信息数据库,存储多个文本;文本获得单元,从所述信息数据库中获得多个文本;专有表现模式存储单元,存储多个专有表现模式;抽取顺序存储单元,存储由所述专有表现模式存储单元存储的一个以上的专有表现模式的、用于抽取专有表现的多个顺序;专有表现抽取单元,以所述抽取顺序存储单元存储的各个顺序,使用专有表现模式,从由所述文本获得单元获得的多个文本中抽取专有表现,将按顺序所抽取的专有表现作为专有表现组;以及专有表现决定单元,按照由所述专有表现抽取单元所得的每个专有表现组,算出类似专有表现数,输出类似专有表现数最少的专有表现组,所述类似专有表现数即是在所述专有表现组中包含的类似专有表现的数量.
根据该结构,由于可以输出所述多个专有表现组中的、类似专有表现数最少的专有表现组,因此用户可以获得尽量不包含难以区别的类似专有表现的最佳专有表现。
并且,也可以是,所述专有表现抽取装置,还包括:显示单元,显示文本,并且,所述专有表现决定单元,在按每个专有表现组算出类似专有表现数时,从专有表现中抽取可以在所述显示单元显示的字符数的部分专有表现,在所抽取的部分专有表现相互类似的情况下,将类似的部分专有表现的数量作为类似专有表现数。
进一步,根据该结构,通过考虑可以在显示单元显示的字符数,从而可以获得尽量不包含类似专有表现的最佳专有表现。据此,例如,在按照用于显示所抽取的专有表现的字符数的不同灵活使用显示格式的情况下等,可以示出按照显示格式的、可以认为用户最容易区别的最佳专有表现。
并且,本发明的专有表现抽取装置,依次使用一个以上的专有表现模式,从一个以上的输入文本中抽取专有表现,所述专有表现模式示出在文本中包含的专有表现部分的判断标准,包括:专有表现模式存储单元,存储多个专有表现模式;抽取顺序存储单元,针对多个抽取条件的每个抽取条件,存储由所述专有表现模式存储单元存储的一个以上的专有表现模式的、用于抽取专有表现的顺序;专有表现抽取单元,按照由所述抽取顺序存储单元存储的顺序,使用所述一个以上的专有表现模式,从所述一个以上的输入文本中抽取专有表现;专有表现存储单元,将所述输入文本、从该输入文本中所抽取的专有表现、以及在进行了的该抽取的所述顺序的阶段对应起来存储;显示条件指定单元,指定预定的阶段,或按照用户的操作指定在共通的阶段所抽取的一个以上的专有表现;专有表现获得单元,在由所述显示条件指定单元指定了预定的阶段的情况下,从所述专有表现存储单元中获得与所述所指定的阶段对应起来存储的所有专有表现,并且,在由所述显示条件指定单元指定了一个以上的专有表现的情况下,从所述专有表现存储单元中获得如下专有表现,即,针对与所述所指定的各个专有表现相对应的输入文本、与所述共通的阶段的下一个阶段对应起来存储的专有表现;重复删除单元,从由所述专有表现获得单元获得的专有表现中删除重复专有表现;以及显示单元,显示由所述重复删除单元删除重复专有表现后剩下的专有表现。
根据该结构,可以按每个阶段显示所抽取的专有表现,例如可以以从简单的专有表现到复杂的专有表现的顺序显示所抽取的专有表现,因此便于用户阶段性地确认所抽取的专有表现。
并且,本发明不仅可以实现为这些专有表现抽取装置,也可以实现为将由这些专有表现抽取装置具有的特征性单元执行的处理作为步骤的专有表现抽取方法,或可以实现为使计算机执行这些步骤的程序。而且,这些程序可以通过CD-ROM等存储介质或互联网等传输介质来分发。
(实施例1)
以下,参照附图说明本发明的实施例1涉及的专有表现抽取装置。图1是本发明的实施例1涉及的专有表现抽取装置的结构图。该专有表现抽取装置,按照抽取条件设定用于抽取的一个以上的专有表现模式的使用顺序,并且根据所设定的顺序使用专有表现模式,从而从输入文本中抽取专有表现,该专有表现抽取装置包括:输入部101、抽取顺序存储部102、抽取顺序读取部103、专有表现模式存储部104、专有表现抽取部105以及抽取结束判断部106。
在此,抽取顺序读取部103是抽取顺序设定单元的一个例子。
输入部101由键盘、鼠标或遥控器等输入装置构成,若用户输入包含专有表现的文本,则输出所输入的文本以及值1,值1即是要处理的抽取顺序的初始值。并且,输入部101也可以从数据库中获得向用户示出的文本,并且输出所获得的文本以及值1,值1即是要处理的抽取顺序的初始值,上述数据库存储关于电视节目的信息、关于存储在硬盘刻录器等的内容的信息或存在于互联网上的内容。
抽取顺序存储部102,将抽取顺序与对应抽取顺序的专有表现模式相对应来存储它们,还存储抽取顺序总数,所述抽取顺序即是存储在专有表现模式存储部104的专有表现模式的使用顺序,所述抽取顺序总数即是抽取顺序的总数。图2示出存储在抽取顺序存储部102的抽取顺序的一个例子,作为(抽取顺序总数,(抽取顺序,所使用的专有表现模式名))存储(3,(1,专有表现A模式),(2,专有表现B模式),(3,专有表现C模式),……)。
抽取顺序读取部103,若输入文本以及抽取顺序,则从抽取顺序存储部102读取与所输入的抽取顺序相对应的专有表现模式名以及抽取顺序总数,并且输出所输入的文本、抽取顺序以及从抽取顺序存储部102读取的抽取顺序总数和专有表现模式名。
专有表现模式存储部104存储:专有表现A模式104A,用于抽取专有表现A;专有表现B模式104B,用于抽取专有表现B;以及专有表现C模式104C,用于抽取专有表现C。例如,在节目名为“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”时,在小标题是相当于“松上電器創業記(松上电器创业记)”的文本、中标题是相当于向小标题追加次数的“松上電器創業記(松上电器创业记)(1))”的文本、大标题是相当于节目名整体“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”的文本的情况下,若专有表现A是小标题、专有表现B是中标题、专有表现C是大标题,则专有表现A模式104A成为用于抽取小标题的规则、专有表现B模式104B成为用于抽取中标题的规则、专有表现C模式104C成为用于抽取大标题的规则。在此规则是指,要抽取的字符串本身、或将要抽取的字符串与此前后的字符串相对应而存储的信息以及要抽取的字符串与此前后的字符串的连接概率等。
作为使用规则进行抽取的具体例子说明如下情况,即,从文本“[解説]続木貴史、松下太郎([解说]续木贵史,松下太郎)”中抽取专有表现之一的人名“続木貴史(续木贵史)”.作为进行这些抽取的方法有,使用如图3所示的存储人名的人名表,将与在人名表中包含的人名完全一致的字符串作为人名,从而从文本中抽取人名.再者,作为将要抽取的字符串与此前后的字符串相对应来存储的方法的一个例子有,使用如图4所示的人名正规表现表,将与在人名正规表现表中包含的模式一致的字符串作为人名,从而从文本中抽取人名,该人名正规表现表存储出现于人名的前后的字符串的模式.再者,作为要抽取的字符串与此前后的连接概率的一个例子有,使用如图5所示的人名概率表来计算精度(在上述文本中的人名为“続木貴史(续木贵史)”时,前面的字符串“]”的概率值“0.9”与后面的字符串“,”的概率值“0.2”相加而精度为“1.1”),在精度为规定的阈值以上时从文本中抽取人名,该人名概率表存储出现人名的前后的字符串与人名的连接概率.
如图6所示,专有表现抽取部105,按照上述方法,并使用图3至图5示例的用于抽取人名的规则(人名模式),从包含人名的文本“[解説]続木貴史、松下太郎([解说]续木贵史,松下太郎)”中抽取专有表现的一个例子的人名“続木貴史(续木贵史)”。
并且,虽然在上述具体例子中以字符串为对象进行了说明,但是也可以是词素、单词以及专有表现抽取结果的专有表现标签,进一步,将字符串与词素、单词以及专有表现标签组合从而构筑规则。并且,虽然在上述具体例子中,只以前后一个字符为对象构筑了规则,但是也可以以多个字符为对象构筑规则。
而且,以下将专有表现A模式104A、专有表现B模式104B、专有表现C模式104C分别总称为专有表现模式。
专有表现抽取部105,若从抽取顺序读取部103输入文本、抽取顺序、抽取顺序总数以及专有表现模式名,则从专有表现模式存储部104读取与所输入的专有表现模式名相对应的专有表现模式,并且使用读取后的该专有表现模式,从所输入的文本中抽取专有表现。并且,专有表现抽取部105输出包含抽取后的专有表现的文本以及从抽取顺序读取部103输入的抽取顺序总数和抽取顺序。
抽取结束判断部106,若从专有表现抽取部105输入抽取顺序总数、抽取顺序以及文本,在抽取顺序小于抽取顺序总数的情况下,向抽取顺序的值加上数值1,并且向抽取顺序读取部103输出加上后的抽取顺序以及从专有表现抽取部105输入的文本。并且,抽取结束判断部106,在抽取顺序是抽取顺序总数以上的情况下,将从专有表现抽取部105输入的文本作为结果文本,从而输出结果文本,该结果文本即是专有表现的抽取结果。
对于如上所述构成的本实施例涉及的专有表现抽取装置的工作例子,参照图1的方框图、图7的流程图以及图8的示出抽取结果的一个具体例子的图进行说明。用户从输入部101输入包含专有表现的文本(步骤S101)。输入部101,若输入包含专有表现的文本,则向抽取顺序读取部103输出所输入的文本以及值1,值1即是要处理的抽取顺序的初始值(步骤S102)。作为一个具体例子,若用户从输入部101输入作为节目名的文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”,则输入部101向抽取顺序读取部103输出所输入的文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”以及值1,值1即是抽取顺序的初始值。
抽取顺序读取部103,若从输入部101输入文本以及抽取顺序,则从抽取顺序存储部102读取与所输入的抽取顺序相对应的专有表现模式名以及抽取顺序总数(步骤S103),并且输出所输入的文本、抽取顺序以及从抽取顺序存储部102读取的抽取顺序总数和专有表现模式名。在上述例子中,抽取顺序读取部103,若从输入部101输入文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”以及抽取顺序的值1,则从抽取顺序存储部102读取与所输入的抽取顺序的值1相对应的专有表现模式名“专有表现A模式”以及抽取顺序总数的值3,并且向专有表现抽取部105输出所输入的“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”、抽取顺序的值1、抽取顺序总数的值3以及专有表现模式名“专有表现A模式”。
专有表现抽取部105,若从抽取顺序读取部103输入文本、抽取顺序、抽取顺序总数以及专有表现模式名,则从专有表现模式存储部104读取与所输入的专有表现模式名相对应的专有表现模式(步骤S104),使用读取后的该专有表现模式从所输入的文本中抽取专有表现(步骤S105).并且,专有表现抽取部105输出包含抽取后的专有表现的文本以及从抽取顺序读取部103输入的抽取顺序总数和抽取顺序.
在上述例子中,专有表现抽取部105,若从抽取顺序读取部103输入文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”、抽取顺序的值1、抽取顺序总数的值3以及专有表现模式名“专有表现A模式”,则从专有表现模式存储部104读取与专有表现模式名“专有表现A模式”相对应的专有表现模式“专有表现A模式”,使用读取后的专有表现模式“专有表现A模式”从所输入的文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)”中抽取专有表现。
在此情况下,由于专有表现模式“专有表现A模式”是抽取小标题的模式,因此文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”的一部分的文本“松上電器創業記(松上电器创业记)”作为“小标题”的专有表现被抽取。在此,作为一个例子,像“<小标题>松上電器創業記(松上电器创业记)</小标题>(1)-誕生(诞生)-”那样,用“<专有表现的种类>”和“</专有表现的种类>”将被抽取的专有表现括起来。并且,专有表现抽取部105,向抽取结束判断106输出包含抽取后的专有表现的文本“<小标题>松上電器創業記(松上电器创业记)</小标题>(1)-誕生(诞生)-”、抽取顺序总数的值3以及抽取顺序的值1(图8的抽取结果(第一次))。
抽取结束判断部106,若从专有表现抽取部105输入抽取顺序总数、抽取顺序以及文本,在抽取顺序小于抽取顺序总数的情况下(步骤S106),向抽取顺序的值加上数值1(步骤S107),并且向抽取顺序读取部103输出加上后的抽取顺序以及从专有表现抽取部105输入的文本。并且,抽取结束判断部106,在抽取顺序是抽取顺序总数以上的情况下(步骤S106),将从专有表现抽取部105输入的文本作为结果文本输出,该结果文本即是专有表现抽取结果。
在上述例子中,抽取结束判断部106,从专有表现抽取部105输入抽取顺序总数的值3、抽取顺序的值1以及文本“<小标题>松上電器創業記(松上电器创业记)</小标题>(1)-誕生(诞生)-”,由于抽取顺序的值1小于抽取顺序总数的值3,因此向抽取顺序的值1加上数值1,从而将值成为2,并且向抽取顺序读取部103输出抽取顺序的值2以及“<小标题>松上電器創業記(松上电器创业记)</小标题>(1)-誕生(诞生)-”。
其次,在抽取顺序读取部103、专有表现抽取部105进行与上述相同的处理,抽取结束判断部106,从专有表现抽取部105输入抽取顺序总数的值3、抽取顺序的值2以及文本“<中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-”,但由于抽取顺序的值2小于抽取顺序总数的值3,因此向抽取顺序的值2加上数值1,从而将值成为3,并且向抽取顺序读取部103输出抽取顺序的值3以及文本““<中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-”(图8的抽取结果(第二次))。
进一步,其次,在抽取顺序读取部103、专有表现抽取部105进行与上述相同的处理,抽取结束判断部106,从专有表现抽取部105输入抽取顺序总数的值3、抽取顺序的值3以及文本“<大标题><中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-</大标题>”,由于抽取顺序总的值3是抽取顺序总数的值3以上,因此将文本“<大标题><中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-</大标题>”作为结果文本输出,该结果文本即是专有表现抽取结果(图8的抽取结果(第三次)).
而且,在上述例子中,抽取顺序存储部102,存储一组抽取顺序总数、抽取顺序以及与抽取顺序相对应的专有表现模式名,但也可以是,抽取顺序存储部102,使一组抽取顺序总数、抽取顺序以及专有表现模式名与用于识别用户的用户标识符相对应来存储它们,抽取顺序读取部103,若从输入部101输入文本以及抽取顺序、还输入用户标识符,则将一组与所输入的用户标识符相对应的抽取顺序总数、抽取顺序以及专有表现模式名作为对象,从抽取顺序存储部102读取与所输入的抽取顺序相对应的专有表现模式名以及抽取顺序总数,并且,输出所输入的文本、抽取顺序、用户标识符以及从抽取顺序存储部102读取的抽取顺序总数和专有表现模式名。
在此,输入部101是用户识别单元的一个例子。
在此情况下,专有表现抽取部105以及抽取结束判断部106,除了进行上述实施例中的工作以外还进行如下工作,即,将由抽取顺序读取部103输出的用户标识符直接输出。作为一个具体例子,假设,抽取顺序存储部102作为一组(用户标识符,抽取顺序总数,(抽取顺序,专有表现模式名))存储(01,3,(1,专有表现A模式),(2,专有表现B模式),(3,专有表现C模式),……),(02,2,(1,专有表现I模式),(2,专有表现J模式),(3,专有表现K模式),……),……,。图9示出在此情况下的抽取顺序存储部102的内容。再者,抽取顺序读取部103,若从输入部101输入用户标识符“01”、文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”以及抽取顺序的值1,则将与所输入的用户标识符“01”相对应的一组(用户标识符,抽取顺序总数,(抽取顺序,专有表现模式名)的(01,3,(1,专有表现A模式),(2,专有表现B模式),(3,专有表现C模式),……)作为对象,从抽取顺序存储部102读取与所输入的抽取顺序的值1相对应的专有表现模式名“专有表现A模式”以及抽取顺序总数的值3,并且,向专有表现抽取部105输出所输入的文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”、抽取顺序的值1、用户标识符“01”、抽取顺序总数的值3以及专有表现模式名“专有表现A模式”。以后,专有表现抽取部105以及抽取结束判断部106,除了进行上述实施例中的工作以外还进行如下工作,即,输出用户标识符“01”。据此,可以按照用户变更专有表现的抽取顺序以及要抽取的专有表现,也可以抽取适应用户的专有表现。
其次,参照图10说明抽取顺序存储部102的变形例。
也可以是,抽取顺序存储部102将抽取顺序总数、抽取顺序以及与抽取顺序相对应的专有表现模式名作为一组,保存多个该组,向每个组给予与要抽取的专有表现的种类相对应的组ID来管理,抽取顺序读取部103,若从输入部101输入组ID、文本以及抽取顺序,则将一组与所输入的组ID相对应的抽取顺序总数、抽取顺序以及专有表现模式名作为对象,从抽取顺序存储部102读取与所输入的抽取顺序相对应的专有表现模式名、抽取顺序总数,并且,输出所输入的文本、抽取顺序、组ID以及从抽取顺序存储部102读取的抽取顺序总数和专有表现模式名。
在此情况下,组ID作为示出抽取条件的信息起作用,抽取顺序读取部103,通过上述读取工作,将与组ID相对应的、按照顺序存储在抽取顺序存储部102的专有表现模式,设定为用于抽取的一个以上的专有表现模式以及此使用顺序.而且,专有表现抽取部105以及抽取结束判断部106,除了进行上述实施例中的工作以外还进行如下工作,即,将由抽取顺序读取部103输出的组ID直接输出.
作为一个具体例子,假设,抽取顺序存储部102作为一组(组ID,抽取顺序总数,(抽取顺序,专有表现模式名))存储(01,3,(1,专有表现A模式),(2,专有表现B模式),(3,专有表现C模式),……),(02,2,(1,专有表现I模式),(2,专有表现J模式),……),……,。图10示出在此情况下的抽取顺序存储部102的内容。再者,抽取顺序读取部103,若从输入部101输入的与用户ID“01”相对应的一组(用户ID,抽取顺序总数,(抽取顺序,专有表现模式名)的(01,3,(1,专有表现A模式),(2,专有表现B模式),(3,专有表现C模式,……))作为对象,从抽取顺序存储部102读取与所输入的抽取顺序的值1相对应的专有表现模式名“专有表现A模式”以及抽取顺序总数的值3,并且,向专有表现抽取部105输出所输入的文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”、抽取顺序的值1、组ID“01”、抽取顺序总数的值3以及专有表现模式名“专有表现A模式”。以后,专有表现抽取部105以及抽取结束判断部106,除了进行上述实施例中的工作以外还进行如下工作,即,输出组ID“01”。
据此,在上述实施例中,用户可以通过指定组ID“01”来从输入文本中抽取关于节目名的文本,再者,作为一个例子,若专有表现I模式是用于抽取人名的姓的规则、专有表现J模式是用于抽取人名的名字的规则、专有表现K模式是用于抽取人名的姓名的规则,则用户可以通过指定组ID“02”来从输入文本中抽取关于人名的文本。即,用户可以指定希望抽取的专有表现。
并且,上述组ID对应要抽取的专有表现的种类,但是,通过将组ID作为用于识别显示要抽取的专有表现的终端的终端标识符、并且使输入部101可以获得用于识别显示专有表现的终端的终端标识符,从而可以抽取对应终端的专有表现。在此情况下,输入部101是终端标识符获得单元的一个例子。
据此,例如,即使在节目名的专有表现是对电视机有用的、不过对CD播放器没用的情况下等,即,在根据显示终端的不同有用的专有表现也不同的情况下,也可以按照每个显示终端设定要抽取的专有表现,因此不需要显示对显示终端冗长的信息。
其次,参照图11至图14说明作为抽取条件使用输入文本数的例子。
在此情况下也可以是,如图11所示,专有表现抽取装置的结构为:将用户从输入部101输入的文本作为检索关键词,来检索存储信息的信息数据库306,对检索后的文本进行专有表现抽取,信息数据库306存储的信息是关于电视节目的信息、关于存储在硬盘刻录器等的内容的信息或关于存在于互联网上的内容的文本信息,并且,抽取顺序存储部102包括:使用模式数据库301以及抽取顺序数据库302,该使用模式数据库301,存储抽取顺序以及与抽取顺序相对应的专有表现模式名;该抽取顺序数据库302,将文本数和抽取顺序总数相对应来存储它们,该文本数是在信息数据库存在包含用户从输入部101输入的文本的一部分的文本的情况下的文本数,并且,抽取顺序读取部103还包括:文本检索部303、顺序总数获得部304以及使用模式获得部305,文本检索部303,若从输入部101输入文本以及抽取顺序的初始值,则从信息数据库306获得包含输入文本的一部分的文本,向顺序总数获得部304输出检索结果文本以及抽取顺序,顺序总数获得部304,若从文本检索部303输入检索结果文本以及抽取顺序,则从抽取顺序存储部102的抽取顺序数据库302获得与所输入的检索结果文本的文本数相对应的抽取顺序总数,向使用模式获得部305输出要获得的抽取顺序总数、检索结果文本以及抽取顺序,使用模式获得部305,若从顺序总数获得部304输入检索结果文本、抽取顺序以及抽取顺序总数,则从抽取顺序存储部102的使用模式数据库302获得与所输入的抽取顺序相对应的专有表现模式名,向专有表现抽取部105输出要获得的专有表现模式名、检索结果文本、抽取顺序总数以及抽取顺序.
在此情况下,在图11示出抽取顺序存储部102和抽取顺序读取部103的方框图,在图12示出抽取顺序存储部102和抽取顺序读取部103的流程图,对工作例子进行说明。并且,在图13示出使用模式数据库301的内容的一个例子,作为(抽取顺序,专有表现模式名)存储((1,专有表现A模式),(2,固专有表现B模式),(3,专有表现C模式),……)。在图14示出抽取顺序数据库302的内容的一个例子,作为(文本数,抽取顺序总数)存储((1以下,1),(2以上5以下,2),(6以上,3))。
在上述实施例中,文本检索部303,若从输入部101输入文本“松上电器创业记”以及抽取顺序的初始值1(步骤S201),则从信息数据库获得包含输入文本的文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”、“松上電器創業記(松上电器创业记)(2)-発展(发展)-”(步骤S202),向顺序总数获得部304输出该检索结果文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”、“松上電器創業記(松上电器创业记)(2)-発展(发展)-”以及抽取顺序的值1。顺序总数获得部304,若从文本检索部303输入检索结果文本“松上電器創業記(松上电器创业记)(1)-誕生(诞生)-”、“松上電器創業記(松上电器创业记)(2)-発展(发展)-”以及抽取顺序的值1,则从抽取顺序存储部102的抽取顺序数据库302获得与所输入的检索结果文本的文本数2相对应的抽取顺序总数2(步骤S203),向使用模式获得部305输出抽取顺序总数2、检索结果文本以及抽取顺序的值1。使用模式获得部305,若从顺序总数获得部304输入检索结果文本、抽取顺序总数以及抽取顺序,则抽取顺序存储部102的使用模式数据库301获得与所输入的抽取顺序的值1相对应的专有表现模式名“专有表现A模式”(步骤S204),向专有表现抽取部105输出该专有表现模式名“专有表现A模式”、检索结果文本、抽取顺序总数2以及抽取顺序的值1。
在抽取顺序的值未满抽取顺序总数期间反复上述处理的结果是,结果文本是“<中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-”、“<中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(2)</中标题>-発展(发展)-”。
并且,在上述实施例中,从输入部101输入被检索的文本“松上電器創業記(松上电器创业记)”,不过也可以是,在信息数据库306中包含的信息由电子节目表信息或音乐信息等内容(节目或音乐)的标题、种类、时间长短、出场演员等构成的情况下,从输入部101输入种类,文本检索部303将与被输入的种类相对应的标题作为从信息数据库306检索的检索结果文本。
其次,参照图15到图18说明存在多个使用模式数据库的情况.在此情况下,为了将使用模式数据库与抽取顺序数据库相对应,由与要抽取的专有表现的种类相对应的共通的ID来管理它们.在图15、图16中分别示出由组ID相对应的使用模式数据库以及抽取顺序数据库,组ID即是共通的ID.在此情况下,组ID作为抽取条件与输入文本数一起被使用,从输入部101还输入组ID,抽取顺序读取部103参照与从输入部101输入的组ID相对应的使用模式数据库以及抽取顺序数据库获得抽取顺序总数以及专有表现模式名.如上所述,通过这些获得工作,抽取顺序读取部103,将与组ID相对应的、在抽取顺序存储部102依次存储的专有表现模式,设定为用于抽取的一个以上的专有表现模式以及其使用顺序.
并且,在上述实施例中从输入部101输入组ID,不过也可以是,在抽取顺序数据库302也存储与文本数相对应的组ID,抽取顺序读取部103从抽取顺序数据库302获得与检索结果文本数相对应的抽取顺序总数以及组ID,再者,参照与组ID相对应的使用模式数据库获得专有表现模式。
通过这些获得工作,抽取顺序读取部103,将与检索结果文本数相对应的、在抽取顺序存储部102依次存储的专有表现模式,设定为用于抽取的一个以上的专有表现模式以及其使用顺序。图25示出该情况下的抽取顺序数据库302的一个例子。
再者,在抽取顺序读取部103中,根据由文本检索部303检索的检索结果文本数设定用于抽取的专有表现模式以及使用顺序,不过也可以是,在本发明还包括显示部的情况下,文本检索部303从所检索的检索结果文本中抽取可以在显示部显示的字符数的文本,将所抽取的多个文本相类似的检索结果文本作为类似文本群组,向顺序总数获得部304输出类似文本群组,从而,根据显示时类似的文本数设定用于抽取的专有表现模式和使用顺序。
图26是这些变形涉及的专有表现抽取装置的结构图。该专有表现抽取装置,向图11所示的专有表现抽取装置追加类似文本获得部308以及显示部309。
在此,作为一个具体例子考虑以下情况,即,在文本检索部303中,从输入部101输入种类“ドキユメンタリ一(纪实)”,从信息数据库306检索文本“ドキユメンタリ一(纪实)-松上電器の歴史(松上电器的历史)-”、“人間ドキユメント(人文纪实)松下の足跡(松下的历程)(1))”、“人間ドキユメント(人文纪实)松下の足跡(松下的历程)(2))”,而且在显示部309可以按一个专有表现显示的字符数为八个文字。
在此情况下,类似文本获得部308从所检索的文本中抽取开头八个字符的文本“ドキユメンタリ一(纪实)”、“人間ドキユメント(人文纪实)”、“人間ドキユメント(人文纪实)”并进行类似判断,将判断为相同文本的与“人間ドキユメント(人文纪实)”相对应的文本“人間ドキユメント(人文纪实)松下の足跡(松下的历程)(1))”、“人間ドキユメント(人文纪实)松下の足跡(松下的历程)(2))”作为类似文本群输出到顺序总数获得部304,将判断为不类似的文本的与“ドキユメンタリ一(纪实)”相对应的文本“ドキユメンタリ一(纪实)-松上電器の歴史(松上电器的历史)-”作为结果文本输出到显示部309。
然后,顺序总数获得部304,参照图25的抽取顺序数据库302获得抽取顺序总数2以及组ID的值02,使用模式获得部305,参照图15的使用模式数据库301,在抽取顺序为1的情况下获得专有表现I模式,在抽取顺序为2的情况下获得专有表现J模式.在此,例如,若使用专有表现I模式,将相当于副题的部分作为小标题,从节目名的文本中抽取小标题,若使用专有表现J模式,将副题和连接于副题的次数合并的部分作为中标题,从节目名的文本中抽取中标题.此结果是,最后,从文本“人間ドキユメント(人文纪实)松下の足跡(松下的历程)(1))”、“人間ドキユメント(人文纪实)松下の足跡(松下的历程)(2))”中分别抽取作为结果文本的结果文本“松下の足跡(松下的历程)(1))”、“松下の足跡(松下的历程)(2))”.
并且,说明了,在判断类似文本时,类似文本获得部308将同一文本作为类似文本,不过也可以是,若是显示字符数的规定的比率的字符数以上的字符串,则判断为类似文件。例如,显示字符数是十个字符、规定的比率是八成时,若八个字符以上的字符串相同,则判断为类似文本。
于是,由类似文本获得部308判断为类似文本群以外的检索结果文本直接在显示部309被显示,对于类似文本群,可以在显示部309显示用户识别文本时需要的最少的专有表现,因此,在显示部显示检索结果文本时,可以抽取考虑到在显示部可以显示的字符数的、用户识别文本时需要的最少的专有表现。
据此,在检索文本中包含同一字符串的情况下,可以抽取用户识别文本时需要的最少的专有表现,因此可以不抽取对用户冗长的字符串。
并且,在本发明中,若对与在学习专有表现模式时所用的文本不同的格式的文本进行处理,则降低专有表现的抽取性能,因此可以是,取代上述组ID由表示格式名或文本的种类的文本属性来进行管理,作为一个例子,在文件是IT方面的文件的情况下属性“IT文件”来进行管理、在文件是电视节目信息的文本的情况下,属性“电视节目信息”、“关于电视剧的文件”或“节目名”来进行管理,此时,在除了由用户输入的文本属性以外还在文本给予文本属性的情况下,输入部101作为获得在此文本给予的文本属性的属性获得部起作用,抽取顺序读取部103从抽取顺序存储部102读取与由输入部101获得的文本属性相对应的专有表现模式以及抽取顺序总数。在此情况下的输入部101是属性获得单元的一个例子,图17是抽取顺序存储部102的内容。
此文本属性,不仅可以示出“IT文本”、“电视节目信息”等分类,也可以示出“电视剧”、“报道节目”以及“娱乐节目”等的电视节目的范畴。由于电视节目的范畴是在构成电视节目指南的节目信息中包含的,因此输入部101可以从构成电视节目指南的节目信息中获得该范畴。
并且,在文本没有给予文本属性的情况下也可以,通过算出用在文本中包含的单词所生成的单词矢量和表现文本属性的单词矢量来估计文本属性,从抽取顺序存储部102读取与该文本属性相对应的专有表现模式名以及抽取顺序总数。据此,可以提高抽取专有表现时的抽取性能,而且,在向抽取专有表现的对象文本给予文本属性的情况下,用户不需要指定文本属性。
并且也可以是,取代所述组ID使用终端标识符,该终端标识符用于识别显示结果文本的终端名以及终端,该结果文本是专有表现被抽取的文本。在此情况下,图18示出抽取顺序存储部102的内容。据此,按照显示结果文本的每个终端可以设定要抽取的专有表现。
其次,参照图19到图24说明将过去被抽取过专有表现的次数作为抽取条件使用的例子。
此情况下的专有表现抽取装置的结构是,如图19所示,在抽取结束判断部106中包含的抽取顺序变更部204按照抽取条件变更抽取顺序;抽取顺序读取部103,在不能读取与从抽取结束判断部106输入的抽取顺序相对应的专有表现模式名的情况下,还输出作为抽取结束标记的值1,在可以读取专有表现模式名的情况下,输出作为抽取结束标记的值0;专有表现抽取部105,在所输入的抽取结束标记是值1的情况下,在可以抽取与从专有表现模式存储部104读取的专有表现模式相对应的专有表现时,进一步输出作为抽取标记的值1以及抽取结束标记的值1,在不能抽取专有表现时,输出作为抽取标记的值0以及抽取结束标记的值1,在所输入的抽取结束标记是值0的情况下,不进行任何处理而输出作为抽取标记的值0以及抽取结束标记的值0;而且,抽取结束判断部106包括:判断部201、抽取次数存储部202、抽取顺序更新部203以及抽取顺序变更部204;判断部201,若从专有表现抽取部105输入抽取结束标记、抽取顺序总数、抽取顺序以及文本,在抽取结束标记是值0的情况下,向抽取顺序的值加上数值1,向抽取顺序读取部103输出加上后的抽取顺序以及从专有表现抽取部105输入的文本,进一步,此时,在抽取顺序等于抽取顺序总数时,将从专有表现抽取部105输入的文本作为结果文本输出,该结果文本即是抽取专有表现的结果,在抽取结束标记是值1的情况下,向抽取顺序变更部204输出抽取结束标记的值1.并且,抽取次数存储部202存储抽取顺序以及抽取次数,该抽取顺序即是抽取专有表现的顺序,该抽取次数即是以此抽取顺序抽取专有表现的的次数;抽取顺序更新部203,若从专有表现抽取部105输入抽取标记、抽取顺序总数以及抽取顺序,在所输入的抽取标记是值1的情况下,更新与所输入的抽取顺序相对应的、在抽取次数存储部202存储的抽取次数;抽取顺序变更部204也可以,在从判断部201输入抽取结束标记的值1的情况下,在抽取次数存储部202的抽取次数的总数是一定的值以上时,根据在抽取次数存储部202存储的、与抽取顺序相对应的抽取次数变更抽取顺序存储部102的抽取顺序.
在此,抽取顺序更新部203以及抽取次数存储部202是抽取次数计数单元的一个例子,使用各个专有表现模式来计数专有表现过去被抽取过的次数。
在此,参照图19所示的抽取结束判断部106的结构图以及图20所示的流程图说明工作例子。在上述实施例中,判断部201,若从专有表现抽取部105输入抽取顺序总数的值3、抽取顺序的值1、文本“<小标题>松上電器創業記(松上电器创业记)</小标题>(1)-誕生(诞生)-”以及抽取结束标记的值0(步骤S301),由于抽取结束标记是值0(步骤S309),因此向抽取顺序的值1加上数值1,从而将抽取顺序的值成为2(步骤S303),向抽取顺序读取部103输出抽取顺序的值2以及文本“<小标题>松上電器創業記(松上电器创业记)</小标题>(1)-誕生(诞生)-”(步骤S304)。
而且,判断部201,若从专有表现抽取部105输入抽取顺序总数的值3、抽取顺序的值3、文本“<大标题><中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-</大标题>”以及抽取结束标记的值0,由于抽取顺序的值3等于抽取顺序总数的值3(步骤S302),将输入文本“<大标题><中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-</大标题>”作为结果文本输出,该结果文本即是抽取专有表现的结果(步S310),由于抽取结束标记是值0(步骤S309),因此向抽取顺序的值3加上数值1,从而将抽取顺序的值成为4(步骤S303),向抽取顺序读取部103输出抽取顺序的值4以及文本“<大标题><中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-</大标题>”(步骤S304).
并且,从抽取结束判断部106向抽取顺序读取部103输入抽取顺序的值5时,若不能读取与抽取顺序的值5相对应的专有表现模式名,抽取顺序读取部103向专有表现抽取部105输出抽取结束标记的值1、抽取顺序总数的值3、抽取顺序的值5以及文本“<大标题><中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-</大标题>”。然后,判断部201,若从专有表现抽取部105输入抽取顺序总数的值3、抽取顺序的值5、文本“<大标题><中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-</大标题>”以及抽取结束标记的值1(步骤S301),由于抽取结束标记是值1(步骤S309),因此向抽取顺序变更部204输出抽取结束标记的值1(步骤S311)。并且,抽取次数存储部202存储抽取顺序以及抽取次数,该抽取顺序即是抽取专有表现的顺序,该抽取次数即是以此抽取顺序抽取专有表现的的次数。
并且,图21示出在抽取次数存储部202存储的抽取顺序以及与抽取顺序相对应的抽取次数的一个例子,作为(抽取顺序,抽取次数)存储((1,9),(2,6),(3,3),(4,1))。即,意味着抽取了小标题9次、中标题6次、大标题3次、全标题1次。在上述实施例中,抽取顺序更新部203,若从专有表现抽取部105输入文本、抽取标记的值1、抽取顺序总数的值3、抽取顺序的值1以及抽取结束标记的值0(步骤S301),由于所输入的抽取标记是值1(步骤S305),因此向与抽取顺序的值1相对应的、在抽取次数存储部202存储的抽取次数的值9加上1,从而将抽取次数的值成为10(步骤S306)。同样,由于在以后的处理中针对中标题、大标题也抽取了专有表现,因此将与抽取顺序的值2以及值3相对应的、在在抽取次数存储部202存储的各个抽取次数的值6以及值3更新为值7以及值4。
图22示出由抽取顺序更新部203更新后的抽取次数存储部202的内容。抽取顺序变更部204,若从判断部201输入抽取结束标记的值1,由于抽取次数存储部202的抽取次数的总数成为特定的值(例如,值20)以上(步骤S307),因此将与存储在抽取次数存储部202的特定的值(例如,值5)以上的抽取次数相对应的、抽取顺序的值2作为抽取顺序存储部102的抽取顺序总数(步骤S308)。
图23示出由抽取顺序变更部204变更后的抽取顺序存储部102的内容。据此,可以使用从用户的输入文本中抽取专有表现的履历来变更抽取顺序总数,并且,使用变更后的抽取顺序总数来针对从信息数据库中检索到的检索结果文本抽取专有表现,此结果是,由于使从检索结果文本中抽取的专有表现的形式与用户的输入频度高的专有表现的形式相同,因此可以不抽取对用户冗长的专有表现,或自然可以只抽取用户识别文本时需要的专有表现。并且,如上述实施例,在抽取顺序存储部102中,将抽取顺序总数、抽取顺序以及与抽取顺序相对应的专有表现模式名作为一组,保持多个该组,在向每个组给予用户标识符或组ID来管理的情况下,抽取次数存储部202,通过按每个用户标识符或组ID管理抽取顺序和抽取次数的组从而可以处理。
图24示出在按每个用户标识符来管理抽取顺序和抽取次数的组的情况下的抽取顺序存储部102的内容。
并且,抽取结束判断部106根据抽取顺序总数以及抽取顺序判断是否继续进行专有表现抽取处理,不过也可以,根据所抽取的专有表现的字符数来判断.作为一个具体例子,专有表现抽取部105除了进行上述实施例中的工作以外还进行如下工作,即,向抽取结束判断部106输出所抽取的专有表现的字符数;抽取结束判断部106,若从专有表现抽取部105输入抽取顺序、所抽取的专有表现的字符数以及文本,在专有表现的字符数小于特定的字符数的情况下,向抽取顺序的值加上数值1,向抽取顺序读取部103输出加上后的抽取顺序以及从专有表现抽取部105输入的文本,并且,在专有表现的字符数是特定的字符数以上的情况下,将从专有表现抽取部105输入的文本作为结果文本输出,该结果文本是抽取专有表现的结果.
在此,抽取结束判断部106是抽取中止单元的一个例子,在抽取长度超过预定的阈值的专有表现的情况下,中止使用以后的专有表现模式进行的抽取。
在上述实施例中,抽取结束判断部106,若从专有表现抽取部105输入抽取顺序的值1、专有表现被抽取的文本“<小标题>松上電器創業記(松上电器创业记)</小标题>(1)-誕生(诞生)-”以及要抽取的专有表现“松上電器創業記(松上电器创业记)”的字符数7,由于专有表现的字符数7小于特定的字符数(在此,例如,字符数是8),因此将抽取顺序的值成为2,向抽取顺序读取部103输出抽取顺序的值2以及文本“<小标题>松上電器創業記(松上电器创业记)</小标题>(1)-誕生(诞生)-”。然后,抽取结束判断部106,进一步,若从专有表现抽取部105输入抽取顺序的值2、专有表现被抽取的文本“<中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-”以及要抽取的专有表现“松上電器創業記(松上电器创业记)”的字符数9,由于专有表现的字符数9是特定的字符数8以上,因此将文本“<中标题><小标题>松上電器創業記(松上电器创业记)</小标题>(1)</中标题>-誕生(诞生)-”作为结果文本输出。据此,在已经决定在显示部可以显示的字符数的上限的情况下等,通过将可以显示的字符数作为抽取结束判断部106的阈值字符数,从而不需要抽取不能显示的专有表现,并且可以减少专有表现抽取的处理量。
并且,上述实施例的专有表现抽取装置,还可以包括变更部,该变更部可以由用户变更在抽取顺序存储部102存储的抽取顺序总数、抽取顺序以及专有表现模式名。据此,用户可以变更所抽取的专有表现。
如上所述,根据本实施例,通过设定专有表现的抽取顺序,从而可以只抽取对用户、应用程序以及终端所需要的专有表现。并且,对于声音识别装置,由于可以减少作为声音识别的对象的专有表现,因此可以提高声音识别的识别性能,所述声音识别装置将从专有表现抽取装置抽取的专有表现作为声音识别的对象词汇。并且,对于检索装置,由于可以减少检索对象的关键词,因此可以提检索精确度,所述检索装置将从专有表现抽取装置抽取的专有表现作为检索对象的关键词,并将该专有表现与检索对象数据一起存储到检索对象数据库。
(实施例2)
其次,参照附图说明本发明的实施例2涉及的专有表现抽取装置。
图27是本发明的实施例2的专有表现抽取装置的结构图.在此,由于与实施例1相同的符号的结构要素进行与实施例1相同的工作,因此省略这些详细说明.本实施例的专有表现抽取装置是一种装置,用于在检索结果的文本中包含相同的字符串的情况下抽取用户识别文本时需要的最少的专有表现,如图27所示,所述专有表现抽取装置包括:输入部101、抽取顺序存储部102、专有表现模式存储部104、专有表现抽取部105、文本检索部303、使用模式获得部305、信息数据库306、使用模式数据库401、抽取顺序数据库402、顺序总数获得部403、抽取结束判断部404以及专有表现决定部405.
使用模式数据库401与抽取顺序数据库402,通过作为共通ID的组ID来相对应,使用模式数据库401按每个组ID存储抽取顺序以及与抽取顺序相对应的专有表现模式名,抽取顺序数据库402按每个组ID存储抽取顺序总数。图15示出使用模式数据库401的一个例子,图28示出抽取顺序数据库402的内容的一个例子。
顺序总数获得部403,在从文本检索部303输入检索结果文本以及抽取顺序的情况下,从抽取顺序数据库402获得最小的组ID、与该组ID相对应的抽取顺序总数以及组ID的最大值,向使用模式获得部305输出检索结果文本、抽取顺序、组ID、抽取顺序总数以及组ID的最大值。
而且,在从抽取结束判断部404输入抽取顺序、组ID、抽取顺序总数以及组ID的最大值的情况下,将抽取顺序设定为1,向所输入的组ID加上1,从抽取顺序数据库获得与加上后的组ID相对应的抽取顺序总数,向使用模式获得部305输出检索结果文本、抽取顺序、组ID、抽取顺序总数以及组ID的最大值。
抽取结束判断部404,若从专有表现抽取部105输入文本、抽取顺序、组ID、抽取顺序总数以及组ID的最大值,向抽取顺序加上1,在加上后的抽取顺序大于抽取顺序总数的情况下,向专有表现决定部405输出组ID、组ID的最大值以及文本,在组ID未满组ID的最大值时,向顺序总数获得部403输出抽取顺序、抽取顺序总数、组ID以及组ID的最大值,并且,在加上后的抽取顺序是抽取顺序总数以下的情况下,向使用模式获得部305输出文本、抽取顺序、组ID、抽取顺序总数以及组ID的最大值。
专有表现决定部405,若从抽取结束判断部404输入组ID、组ID的最大值以及文本,存储与组ID相对应的、同时输入的多个文本中抽取的专有表现,进一步,在组ID等于组ID的最大值的情况下,针对与每个组ID相对应的、所存储的专有表现,算出类似的专有表现数,将所算出的类似专有表现数最少的、与组ID相对应的专有表现作为结果文本输出。
对于如此构成的本实施例涉及的专有表现抽取装置,说明抽取专有表现时的工作例子。图29是示出抽取专有表现时的工作例子的顺序的流程图。
将在信息数据库306中包含的信息作为电子节目信息,文本检索部303,若从输入部101输入种类“ドキユメンタリ一(纪实)”以及抽取顺序的初始值1(步骤S401),从信息数据库306获得与种类“ドキユメンタリ一(纪实)”相对应的节目名的文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(1)”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(2)”(步骤S402),向顺序总数获得部403输出该检索结果文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”、人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(1)”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(2)”以及抽取顺序1。
顺序总数获得部403,若从文本检索部303输入检索结果文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”、人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(1)”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(2)”以及抽取顺序的值1,从图28所示的抽取顺序数据库402获得最小的组ID的值1、与该组ID相对应的抽取顺序总数的值2以及组ID的最大值2(步骤S403),向使用模式获得部305输出文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”、人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(1)”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(2)”、抽取顺序1、组ID的值1、抽取顺序总数2以及组ID的最大值2.
与实施例1相同,使用模式获得部305,若从顺序总数获得部403输入文本、抽取顺序总数、抽取顺序、组ID以及组ID的最大值,从图15的使用模式数据库401获得与所输入的组ID以及抽取顺序的值1相对应的专有表现模式名“专有表现A模式”(步骤S404),向专有表现抽取部105输出该专有表现模式名“专有表现A模式”、输入文本、抽取顺序总数、抽取顺序、组ID、组ID的最大值以及文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”、人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(1)”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(2)”。
与实施例1相同,专有表现抽取部105,使用所输入的专有表现模式名“专有表现A模式”来从文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”、人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(1)”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(2)”中抽取小标题的专有表现即文本“ドキユメンタリ一(纪实)”、“ドキユメンタリ一(纪实)”、“人間ドキユメント(人文纪实)”、“人間ドキユメント(人文纪实)”(步骤S406),向抽取结束判断部404输出专有表现被抽取的文本“<小标题>ドキユメンタリ一(纪实)</小标题>(1)-松上電器の誕生(松上电器的诞生)-”、“<小标题>ドキユメンタリ一(纪实)</小标题>(2)-松上電器の発展(松上电器的发展)-”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(1)”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(2)”、抽取顺序总数、抽取顺序、组ID以及组ID的最大值。
抽取结束判断部404,向所输入的抽取顺序的值加上1,从而将抽取顺序的值成为2(步骤S407),由于加上后的抽取顺序的值2是抽取顺序总数2以下(步骤S408),因此向使用模式获得部305输出所输入的文本“<小标题>ドキユメンタリ一(纪实)</小标题>(1)-松上電器の誕生(松上电器的诞生)-”、“<小标题>ドキユメンタリ一(纪实)</小标题>(2)-松上電器の発展(松上电器的发展)-”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(1)”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(2)”、抽取顺序总数2、抽取顺序2、组ID的值1以及组ID的最大值2。
然后,与上述相同,使用模式获得部305获得专有表现模式名“专有表现B模式”,专有表现抽取部105使用专有表现模式名“专有表现B模式”来从文本中抽取专有表现后,专有表现抽取部105向抽取结束判断部404输出文本“<中标题><小标题>ドキユメンタリ一(纪实)</小标题>(1)</中标题>-松上電器の誕生(松上电器的诞生)-”、“<中标题><小标题>ドキユメンタリ一(纪实)</小标题>(2)</中标题>-松上電器の発展(松上电器的发展)-”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(1)”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(2)”、抽取顺序总数2、抽取顺序2、组ID的值1以及组ID的最大值2.
抽取结束判断部404,向所输入的抽取顺序的值加上1,从而将抽取顺序的值成为3(步骤S407),由于加上后的抽取顺序的值3大于抽取顺序总数2(步骤S408),因此向专有表现决定部405输出组ID的值1、组ID的最大值2以及“<中标题><小标题>ドキユメンタリ一(纪实)</小标题>(1)</中标题>-松上電器の誕生(松上电器的诞生)-”、“<中标题><小标题>ドキユメンタリ一(纪实)</小标题>(2)</中标题>-松上電器の発展(松上电器的发展)-”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(1)”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(2)”(步骤S409),由于组ID的值1未满组ID的最大值2(步骤S410),因此向顺序总数获得部403输出抽取顺序的值3、抽取顺序总数2、组ID的值1以及组ID的最大值2。
顺序总数获得部403,在从抽取结束判断部404输入抽取顺序的值3、组ID的值1、抽取顺序总数2以及组ID的最大值2的情况下,将抽取顺序的值设定为1,向所输入的组ID加上1,从而将组ID的值成为2,从抽取顺序数据库402获得与加上后的组ID的值2相对应的抽取顺序总数2,向使用模式获得部305输出检索结果文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(1)”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(2)”、抽取顺序的值1、组ID的值2、抽取顺序总数2以及组ID的最大值2。
然后,与上述相同,使用模式获得部305获得专有表现模式名“专有表现I模式”,专有表现抽取部105使用专有表现模式名“专有表现I模式”来从文本中抽取专有表现后(例如,假设,若使用专有表现I模式,则从节目名的文本中抽取小标题,该小标题相当于副题的部分),专有表现抽取部105向抽取结束判断部404输出文本“ドキユメンタリ一(纪实)(1)-<小标题>松上電器の誕生(松上电器的诞生)-</小标题>”、“ドキユメンタリ一(纪实)(2)-<小标题>松上電器の発展(松上电器的发展)</小标题>-”、“人間ドキユメント(人文纪实)<小标题>松下太郎の足跡(松下太郎的历程)</小标题>(1)”、“人間ドキユメント(人文纪实)<小标题>松下太郎の足跡(松下太郎的历程)</小标题>(2)”、抽取顺序总数2、抽取顺序的值1、组ID的值2以及组ID的最大值2,抽取结束判断部404,将抽取顺序的值成为2,向使用模式获得部305输出抽取顺序的值2、抽取顺序总数2、组ID的值2以及组ID的最大值2。
然后,也同样,使用模式获得部305获得专有表现模式名“专有表现J模式”,专有表现抽取部105使用专有表现模式名“专有表现J模式”来从文本中抽取专有表现后(例如,假设,若使用专有表现J模式,则从节目名的文本中抽取中标题,该中标题相当于副题和连接于副题的次数合并的部分),专有表现抽取部105向抽取结束判断部404输出文本“ドキユメンタリ一(纪实)(1)-<小标题>松上電器の誕生(松上电器的诞生)</小标题>-”、“ドキユメンタリ一(纪实)(2)-<小标题>松上電器の発展(松上电器的发展)</小标题>-”、“人間ドキユメント(人文纪实)<中标题><小标题>松下太郎の足跡(松下太郎的历程)</小标题>(1)</中标题>”、“人間ドキユメント(人文纪实)<中标题><小标题>松下太郎の足跡(松下太郎的历程)</小标题>(2)</中标题>”、抽取顺序总数2、抽取顺序的值2、组ID的值2以及组ID的最大值2.
抽取结束判断部404,进行与上述相同的工作后,由于抽取顺序的值3大于抽取顺序总数(步骤S408),因此向专有表现决定部405输出组ID的值2、组ID的最大值2以及文本“ドキユメンタリ一(纪实)(1)-<小标题>松上電器の誕生(松上电器的诞生)</小标题>-”、“ドキユメンタリ一(纪实)(2)-<小标题>松上電器の発展(松上电器的发展)</小标题>-”、“人間ドキユメント(人文纪实)<中标题><小标题>松下太郎の足跡(松下太郎的历程)</小标题>(1)</中标题>”、“人間ドキユメント(人文纪实)<中标题><小标题>松下太郎の足跡(松下太郎的历程)</小标题>(2)</中标题>”。
专有表现决定部405,若从抽取结束判断部404输入组ID的值1、组ID的最大值2以及文本“<中标题><小标题>ドキユメンタリ一(纪实)</小标题>(1)</中标题>-松上電器の誕生(松上电器的诞生)-”、“<中标题><小标题>ドキユメンタリ一(纪实)</小标题>(2)</中标题>-松上電器の発展(松上电器的发展)-”、“<小标题>人間ドキユメント(人文纪实)</小标题>>松下太郎の足跡(松下太郎的历程)(1)”、“<小标题>人間ドキユメント(人文纪实)</小标题>>松下太郎の足跡(松下太郎的历程)(2)”,则存储与组ID的值1相对应的、同时输入的多个文本中抽取的专有表现“ドキユメンタリ一(纪实)(1)”、“ドキユメンタリ一(纪实)(2)”、“人間ドキユメント(人文纪实)”、“人間ドキユメント(人文纪实)”。
再者,专有表现决定部405,若从抽取结束判断部404输入组ID的值2、组ID的最大值2以及文本“ドキユメンタリ一(纪实)(1)-<小标题>松上電器の誕生(松上电器的诞生)</小标题>-”、“ドキユメンタリ一(纪实)(2)-<小标题>松上電器の発展(松上电器的发展)</小标题>-”、“人間ドキユメント(人文纪实)<中标题><小标题>松下太郎の足跡(松下太郎的历程)</小标题>(1)</中标题>”、“人間ドキユメント(人文纪实)<中标题><小标题>松下太郎の足跡(松下太郎的历程)</小标题>(2)</中标题>”,则存储与组ID的值2相对应的、同时输入的多个文本中抽取的专有表现“松下電器の誕生(松下电器的诞生)”、“松下電器の発展(松下电器的发展)”、“松下太郎の足跡(松下太郎的历程)(1)”、“松下太郎の足跡(松下太郎的历程)(2)”。
再者,此时,专有表现决定部405,由于组ID的值2等于组ID的最大值2(步骤S410),对于组ID的值1,由于专有表现“人間ドキユメント(人文纪实)”与“人間ドキユメント(人文纪实)”相同,因此类似专有表现数为2(在此,只将相同文本作为类似文本,不过也可以,将一定的字符数以上的相同文本作为类似文本),对于组ID的值2,由于所有的专有表现不同,因此类似专有表现数为0。
而且,将与类似专有表现数最少的组ID的值2相对应的专有表现“松下電器の誕生(松下电器的诞生)”、“松下電器の発展(松下电器的发展)”、“松下太郎の足跡(松下太郎的历程)(1)”、“松下太郎の足跡(松下太郎的历程)(2)”作为结果文本输出.
并且,在上述实施例中,专有表现决定部405,直接使用所抽取的专有表现来算出类似专有表现数,不过一般而言,文本在大小有限的显示部上被显示,考虑此事宜,在预先得知在该显示部上可以显示的每一个专有表现的显示字符数的情况下,可以只抽取专有表现开头的显示字符数的文本,从而求出针对所抽取的文本的类似专有表现数。
作为一个具体例子,考虑如下情况,即,在专有表现决定部405作为(组ID,专有表现群)输入(1,(松下電器産業の誕生(松下电器产业的诞生),松下電器産業の発展(松下电器产业的发展),松下電器産業の株価推移(松下电器产业的股价推移),松下電器産業の新製品紹介(松下电器产业的新产品介绍))),(2,(松下ドキユメンタリ一(松下纪实),松下ドキユメンタリ一(松下纪实),経済ニユ一ス(经济新闻),流行の商品紹介(流行商品介绍)))。
此例子是,从在节目信息中包含的节目名中所抽取的专有表现的一个例子。这些专有表现是估计灵活使用两种显示格式的、并且在同一显示部显示的情况下的专有表现,即,该两种显示格式即是详细显示格式以及提高了便览性的显示格式,该详细显示格式种用于每一个专有表现的字符数是不同。
例如,若在详细显示格式中用于每一个专有表现的字符数是十二个字符,则专有表现决定部405,可以抽取各个专有表现的开头的最多十二个字符的文本(1,(松下電器産業の誕生(松下电器产业的诞生),松下電器産業の発展(松下电器产业的发展),松下電器産業の株価推移(松下电器产业的股价推移),松下電器産業の新製品紹介(松下电器产业的新产品介绍))),(2,(松下ドキユメンタリ一(松下纪实),松下ドキユメンタリ一(松下纪实),経済ニユ一ス(经济新闻),流行の商品紹介(流行商品介绍)))。在此情况下,可以抽取各个专有表现的所有的字符。而且,针对组ID的值1、2分别求出类似专有表现数0、2,将与类似专有表现数最少的组ID的值1相对应的专有表现“松下電器産業の誕生(松下电器产业的诞生)”、“松下電器産業の発展(松下电器产业的发展)”、“松下電器産業の株価推移(松下电器产业的股价推移)”、“松下電器産業の新製品紹介(松下电器产业的新产品介绍)”作为结果文本输出到显示部。
图30A是详细显示格式的一个例子,在该例子中,使用从节目名所抽取的最多十二个字符的专有信息,在一个画面上显示三个频道的节目信息。该格式适于希望浏览更详细的节目信息的用户。
并且,若在提高了便览性的显示格式中用于一个专有表现的字符数是例如六个字符,则专有表现决定部405抽取各个专有表现的开头的最多六个字符的文本(1,(松下電器産業(松下电器产业),松下電器産業(松下电器产业),松下電器産業(松下电器产业),松下電器産業(松下电器产业))),(2,(松下ドキユメ(松下纪),松下ドキユメ(松下纪),経済ニユ一ス(经济新闻),流行の商品紹(流行商品介)))。而且,针对组ID的值1、2分别求出类似专有表现数4、2,将与类似专有表现数最少的组ID的值2相对应的专有表现“松下ドキユメ(松下纪)”、“松下ドキユメ(松下纪)”、“经济ニユ一ス(经济新闻)”、“流行の商品绍(流行商品介)”作为结果文本输出到显示部。
图30B是提高了便览性的显示格式的一个例子,在该例子中,在一个画面上使用从节目名中抽取的最多六个字符的专有表现显示六个频道的节目信息.该格式适于希望浏览更广泛的节目信息的用户.而且,如图所示,对于本来七个字符以上的专有信息,可以通过将第六个字符替换为规定的字符(例如,“…”),从而示出省略了后续的字符.
如此,如图30A、B所示,在灵活使用多个不同显示格式的情况下,可以显示用户识别节目时最有效的各个专有表现。
如上所述,根据本实施例,在通过变更从同一文本中抽取专有表现的方法来抽取的多个组的专有表现中,将在各个组中包含的专有表现最不同的组的专有表现作为最后结果,从而可以增多用户可以识别的专有表现数。
(实施例3)
其次,参照附图说明本发明的实施例3涉及的专有表现抽取装置。
图31是本发明的实施例3的专有表现抽取装置的结构图。在此,由于与实施例1相同的符号的结构要素进行与实施例1相同的工作,因此省略这些详细说明。本实施例的专有表现抽取装置是一种装置,在所显示的专有表现中存在同一的专有表现的情况下,删除重复专有表现,进一步,若用户指定所显示的专有表现,则可以显示以嵌套结构包含指定的专有表现的专有表现,如图31所示,所述专有表现抽取装置包括:输入部101、抽取顺序存储部102、抽取顺序读取部103、专有表现模式存储部104、专有表现抽取部105、专有表现存储部501、抽取结束判断部502、显示条件指定部503、专有表现获得部504、重复删除部505以及显示部506。
专有表现存储部501,将输入文本、从输入文本中所抽取的专有表现以及抽取顺序相对应,并且存储它们。图32示出专有表现存储部501的内容的例子。
抽取结束判断部502,若从专有表现抽取部105输入抽取顺序总数、抽取顺序以及文本,将抽取顺序、文本以及从文本中所抽取的专有表现相对应,并且将它们存储到专有表现存储部501,再者,在抽取顺序小于抽取顺序总数的情况下,向抽取顺序的值加上数值1,向抽取顺序读取部103输出加上后的抽取顺序以及从专有表现抽取部105输入的文本。
显示部506显示专有表现。显示条件指定部503,输入显示在显示部506的专有表现的抽取顺序、或所显示的多个专有表现中由用户所指定的专有表现。
专有表现获得部504,从显示条件指定部503只输入抽取顺序的情况下,获得与从专有表现存储部501输入的抽取顺序相对应的专有表现,并且,从显示条件指定部503输入抽取顺序以及由用户指定的专有表的情况下,从在专有表现存储部501存储的文本中检索与所输入的抽取顺序以及专有表现相对应的文本,获得在所检索的文本中的、与所输入的抽取顺序的下一个抽取顺序相对应的专有表现。
重复删除部505,由专有表现获得部504获得的专有表现中删除重复专有表现,并将它们显示在显示部506。
对于如此构成的本实施例的专有表现抽取装置,说明抽取专有表现、并在显示部显示该专有表现时的工作例子。图33是示出抽取并显示专有表现时的工作例子的顺序的流程图。
对于使用输入部101、抽取顺序存储部102、抽取顺序读取部103、专有表现抽取部105来从输入文本中抽取专有表现的工作(步骤S101至步骤S105),与在实施例1中进行的工作相同,因此省略说明。
抽取结束判断部502,若从专有表现抽取部105输入抽取顺序总数3、抽取顺序1以及文本“<小标题>ドキユメンタリ一(纪实)</小标题>(1)-松上電器の誕生(松上电器的诞生)-”、“<小标题>ドキユメンタリ一(纪实)</小标题>(2)-松上電器の発展(松下电器的发展)-”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(1)”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(2)”,将抽取顺序1、文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(1)”、“人間ドキユメント(人文纪实)松下太郎の足跡(松下太郎的历程)(2)”以及从文本中所抽取的专有表现“ドキユメンタリ一(纪实)”、“ドキユメンタリ一(纪实)”、“人間ドキユメント(人文纪实)”“人間ドキユメント(人文纪实)”相对应,并将它们存储到专有表现存储部501(步骤S501),再者,由于抽取顺序的值1小于抽取顺序总数3(步骤S106),因此向抽取顺序的值加上数值1,从而将抽取顺序的值成为2(步骤S107),向抽取顺序读取部103输出加上后的抽取顺序的值2以及从专有表现抽取部105输入的文本“<小标题>ドキユメンタリ一(纪实)</小标题>(1)一松上電器の誕生(松上电器的诞生)-”、“<小标题>ドキユメンタリ一(纪实)</小标题>(2)-松上電器の発展(松上电器的发展)-”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(1)”、“<小标题>人間ドキユメント(人文纪实)</小标题>松下太郎の足跡(松下太郎的历程)(2)”.
到抽取顺序成为抽取顺序总数以上为止反复上述工作后,专有表现存储部501的内容成为像图32所示那样。
接着,使用如此获得的内容进行如下显示工作。
首先,显示条件指定部503,不被用户指定,而向专有表现获得部504输入作为抽取顺序的初始值的值1。
专有表现获得部504,在从显示条件指定部503只输入抽取顺序的值1的情况下(步骤S502),从专有表现存储部501获得与抽取顺序的值1相对应的专有表现“ドキユメンタリ一(纪实)”、“ドキユメンタリ一(纪实)”、“人間ドキユメント(人文纪实)”、“人間ドキユメント(人文纪实)”(步骤S503)。
重复删除部505,在专有表现获得部504获得专有表现“ドキユメンタリ一(纪实)”、“ドキユメンタリ一(纪实)”、“人間ドキユメント(人文纪实)”、“人間ドキユメント(人文纪实)”的情况下,针对这些专有表现删除重复专有表现(步骤S506),将专有表现“ドキユメンタリ一(纪实)”、“人間ドキユメント(人文纪实)”显示在显示部506(步骤S507)。图34示出此时在显示部506显示的显示内容的例子。并且,重复删除部505也可以,在显示各个专有表现时,同时显示在各个专有表现中重复的数量。图35示出此时在显示部506显示的显示内容的例子。
在此,显示的各个专有表现中追加接受由用户的规定操作(例如,鼠标点击操作等)的用户界面功能。显示条件指定部503,若接受向所显示的专有表现之一的、由用户的规定操作,则向专有表现获得部504输入进行了该操作的专有表现以及该专有表现的抽取顺序。
作为一个例子,在图34中,若用户点击“ドキユメンタリ一(纪实)”,则从显示条件指定部503输入抽取顺序的值1以及由用户指定的专有表现“ドキユメンタリ一(纪实)”.专有表现获得部504,从存储在专有表现存储部501的文件中检索与所输入的抽取顺序的值1以及专有表现“ドキユメンタリ一(纪实)”相对应的文本“ドキユメンタリ一(纪实)(1)-松上電器の誕生(松上电器的诞生)-”、“ドキユメンタリ一(纪实)(2)-松上電器の発展(松上电器的发展)-”(步骤S504),获得所检索的文本的专有表现中的、与所输入的抽取顺序的下一个抽取顺序的值2相对应的专有表现“ドキユメンタリ一(纪实)(1)”、“ドキユメンタリ一(纪实)(2)”(步骤S505).
而且,重复删除部505,输入专有表现“ドキユメンタリ一(纪实)(1)”、“ドキユメンタリ一(纪实)(2)”,在此情况下,由于不存在重复的专有表现,因此在显示部506直接显示专有表现。图36示出此时在显示部506显示的显示内容的例子。
如上所述,根据本实施例,由于根据所抽取的专有表现的嵌套结构显示所输入的文本,因此可以以菜单层次显示所输入的文本。并且,在输入文本是存储在用户存储装置的内容的标题等的情况下,由于按照专有表现的嵌套结构生成菜单层次,因此用户不需要从存在重复的专有表现的标题一览中查找目的标题,而通过参照菜单层次就可以发现目的标题。
(其它变形例)
到此,说明了输入文本以及所抽取的专有表现是日文的例子,不过,当然输入文本以及所抽取的专有表现不仅限于日文。例如,当然可以从以中文(简体字)表示的输入文本中抽取专有表现。
图37A、B是应该成为输入文本的、在中文的节目信息中包含的节目名的一个例子。与所述内容相同,通过从该节目名中抽取专有表现,并将该专有表现示出给用户,从而可以实现专有表现抽取装置,该专有表现抽取装置可以从中文的输入文本中抽取适应抽取条件的专有表现,该抽取条件是以用户的输入履历或显示能力等所表示的。
根据本发明,在从文本中抽取专有表现时,可以将被抽取的专有表现适应用户、应用程序以及用户所使用的终端,并且本发明可以适用于硬盘刻录器、DVD刻录器、TV以及组合音响等终端,或适用于访问互联网来进行信息检索的信息检索服务器等。

Claims (7)

1.一种专有表现抽取装置,依次使用一个以上的专有表现模式,从一个以上的输入文本中抽取专有表现,所述专有表现模式示出在文本中包含的专有表现部分的判断标准,其特征在于,包括:
信息数据库,存储多个文本;
文本检索单元,从所述信息数据库中检索成为所述输入文本的、一个以上的文本;
抽取顺序设定单元,在每次输入文本被输入时,按照抽取条件重新设定用于抽取专有表现的专有表现模式的抽取顺序,所述抽取条件是输入文本的数量;
专有表现抽取单元,以所述设定的抽取顺序所示的顺序,使用专有表现模式,从所述检索到的文本中抽取专有表现;
专有表现模式存储单元,存储多个专有表现模式;以及
抽取顺序存储单元,针对示出文本的数量的多个值的每个值,存储由所述专有表现模式存储单元存储的、一个以上的专有表现模式的顺序,其中,
所述抽取顺序设定单元,针对检索到的文本的数量,将由所述抽取顺序存储单元存储的专有表现模式的顺序设定为所述抽取顺序。
2.一种专有表现抽取装置,依次使用一个以上的专有表现模式,从一个以上的输入文本中抽取专有表现,所述专有表现模式示出在文本中包含的专有表现部分的判断标准,其特征在于,包括:
信息数据库,存储多个文本;
文本获得单元,从所述信息数据库中获得多个文本;
显示单元,显示文本;
类似文本获得单元,从由所述文本获得单元获得的多个文本中,将由在所述显示单元显示时类似的多个文本作为所述输入文本来获得,
抽取顺序设定单元,在每次输入文本被输入时,按照抽取条件重新设定用于抽取专有表现的专有表现模式的抽取顺序,所述抽取条件是输入文本的数量;
专有表现抽取单元,,以所述设定的抽取顺序所示的顺序,使用专有表现模式,从由所述类似文本获得单元获得的文本中抽取专有表现;
专有表现模式存储单元,存储多个专有表现模式;以及
抽取顺序存储单元,针对示出文本的数量的多个值的每个值,存储由所述专有表现模式存储单元存储的、一个以上的专有表现模式的顺序,其中,
所述抽取顺序设定单元,针对由所述类似文本获得单元获得的文本的数量,将由所述抽取顺序存储单元存储的专有表现模式的顺序设定为所述抽取顺序。
3.一种专有表现抽取装置,依次使用一个以上的专有表现模式,从一个以上的输入文本中抽取专有表现,所述专有表现模式示出在文本中包含的专有表现部分的判断标准,其特征在于,包括:
信息数据库,存储多个文本;
文本获得单元,从所述信息数据库中获得多个文本;
专有表现模式存储单元,存储多个专有表现模式;
抽取顺序存储单元,存储多个规则组,该规则组将由所述专有表现模式存储单元存储的一个以上的专有表现模式与表示各个专有表现模式用于抽取专有表现的顺序的抽取顺序号码对应起来加以表示;
专有表现抽取单元,在所述抽取顺序存储单元存储的每个组中,以对应于各专有表现模式的抽取顺序号码的顺序,将满足由规则组中所包含的各专有表现模式表示的判断标准的一个以上的部分,作为专有表现,从由所述文本获得单元获得的多个文本中抽取,将所抽取的专有表现作为专有表现组;以及
专有表现决定单元,按照由所述专有表现抽取单元得到的每个专有表现组,对类似专有表现数进行计数,输出类似专有表现数最少的专有表现组,所述类似专有表现数是该专有表现组中包含的专有表现中一定数量以上的字符相同的专有表现的数量。
4.如权利要求3所述的专有表现抽取装置,其特征在于,
所述专有表现抽取装置,进一步,
包括:显示单元,显示文本,
所述专有表现决定单元,在按每个专有表现组对类似专有表现数进行计数时,从专有表现中抽取可以在所述显示单元显示的字符数的部分专有表现,在所抽取的部分专有表现相互类似的情况下,将类似的部分专有表现的数量作为类似专有表现数。
5.一种专有表现抽取装置,依次使用一个以上的专有表现模式,从一个以上的输入文本中抽取专有表现,所述专有表现模式示出在文本中包含的专有表现部分的判断标准,其特征在于,包括:
专有表现模式存储单元,存储多个专有表现模式;
抽取顺序存储单元,存储规则组,该规则组将由所述专有表现模式存储单元存储的一个以上的专有表现模式与表示各个专有表现模式用于抽取专有表现的顺序的抽取顺序号码对应起来加以表示;
专有表现抽取单元,以对应于各专有表现模式的抽取顺序号码的顺序,将满足由所述抽取顺序存储单元中存储的规则组中所包含的各专有表现模式表示的判断标准的一个以上的部分,作为专有表现,从所述一个以上的输入文本中抽取;
专有表现存储单元,将所述抽取的专有表现、被抽取了专有表现的输入文本、以及与用于抽取的专有表现模式相对应的抽取顺序号码对应起来加以存储;
显示条件指定单元,指定预定的抽取顺序号码,或按照用户的操作来指定对应于共通的抽取顺序号码所抽取的一个以上的专有表现;
专有表现获得单元,在由所述显示条件指定单元指定了预定的抽取顺序号码的情况下,从所述专有表现存储单元中获得与所述所指定的抽取顺序号码对应起来加以存储的所有专有表现,并且,在由所述显示条件指定单元指定了一个以上的专有表现的情况下,从所述专有表现存储单元中获得如下专有表现,即,针对与所述所指定的各个专有表现相对应的输入文本、与所述共通的抽取顺序号码的下一个抽取顺序号码对应起来加以存储的专有表现;
重复删除单元,从由所述专有表现获得单元获得的专有表现中删除重复专有表现;以及
显示单元,显示由所述重复删除单元删除重复专有表现后剩下的的专有表现。
6.一种专有表现抽取方法,参照专有表现模式存储单元以及抽取顺序存储单元,从一个以上的输入文本中抽取专有表现,所述专有表现模式存储单元存储多个专有表现模式,该专有表现模式示出在文本中包含的专有表现部分的判断标准,所述抽取顺序存储单元存储多个规则组,该规则组将由所述专有表现模式存储单元存储的一个以上的专有表现模式与表示各个专有表现模式用于抽取专有表现的顺序的抽取顺序号码对应起来加以表示,其特征在于,所述专有表现抽取方法,包括:
文本获得步骤,从信息数据库中获得多个文本;
专有表现抽取步骤,在所述抽取顺序存储单元存储的每个规则组中,以对应于各专有表现模式的抽取顺序号码的顺序,将满足由规则组中所包含的各专有表现模式表示的判断标准的一个以上的部分,作为专有表现,从由所述文本获得步骤获得的多个文本中抽取,将所抽取的专有表现作为专有表现组;以及
专有表现决定步骤,按照由所述专有表现抽取步骤得到的每个专有表现组,对类似专有表现数进行计数,输出类似专有表现数最少的专有表现组,所述类似专有表现数是该专有表现组中包含的专有表现中一定数量以上的字符相同的专有表现的数量。
7.一种专有表现抽取方法,参照专有表现模式存储单元以及抽取顺序存储单元,从一个以上的输入文本中抽取专有表现,所述专有表现模式存储单元存储多个专有表现模式,该专有表现模式示出在文本中包含的专有表现部分的判断标准,所述抽取顺序存储单元存储规则组,该规则组将由所述专有表现模式存储单元存储的一个以上的专有表现模式与表示各个专有表现模式用于抽取专有表现的顺序的抽取顺序号码对应起来加以表示,其特征在于,所述专有表现抽取方法,包括:
专有表现抽取步骤,以对应于各专有表现模式的抽取顺序号码的顺序,将满足由所述抽取顺序存储单元中存储的规则组中所包含的各专有表现模式表示的判断标准的一个以上的部分,作为专有表现,从所述一个以上的输入文本中抽取;
专有表现存储步骤,将所述抽取的专有表现、被抽取了专有表现的输入文本、以及与用于抽取的专有表现模式相对应的抽取顺序号码对应起来加以存储;
显示条件指定步骤,指定预定的抽取顺序号码,或按照用户的操作来指定对应于共通的抽取顺序号码所抽取的一个以上的专有表现;
专有表现获得步骤,在由所述显示条件指定步骤指定了预定的抽取顺序号码的情况下,获得由所述专有表现存储步骤中存储的、与所述所指定的抽取顺序号码相对应的专有表现,并且,在由所述显示条件指定步骤指定了一个以上的专有表现的情况下,获得由所述专有表现存储步骤存储的、并且针对与所述指定的各个专有表现相对应的输入文本的、与所述共通的抽取顺序号码的下一个抽取顺序号码相对应的专有表现;
重复删除步骤,从由所述专有表现获得步骤获得的专有表现中删除重复专有表现;以及
显示步骤,显示由所述重复删除步骤删除重复专有表现后剩下的专有表现。
CN2005800496646A 2005-06-15 2005-12-26 专有表现抽取装置、方法以及程序 Expired - Fee Related CN101167075B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005175678 2005-06-15
JP175678/2005 2005-06-15
PCT/JP2005/023768 WO2006134682A1 (ja) 2005-06-15 2005-12-26 固有表現抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN101167075A CN101167075A (zh) 2008-04-23
CN101167075B true CN101167075B (zh) 2010-05-12

Family

ID=37532053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800496646A Expired - Fee Related CN101167075B (zh) 2005-06-15 2005-12-26 专有表现抽取装置、方法以及程序

Country Status (4)

Country Link
US (1) US7761437B2 (zh)
JP (2) JP4129048B2 (zh)
CN (1) CN101167075B (zh)
WO (1) WO2006134682A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
EP1965312A3 (en) * 2007-03-01 2010-02-10 Sony Corporation Information processing apparatus and method, program, and storage medium
US7917489B2 (en) * 2007-03-14 2011-03-29 Yahoo! Inc. Implicit name searching
EP2025523B1 (en) 2007-07-26 2014-10-22 Brother Kogyo Kabushiki Kaisha Sheet processing apparatus
JP2009094658A (ja) * 2007-10-05 2009-04-30 Hitachi Ltd 関連情報提供装置、及び関連情報提供方法
US7987416B2 (en) * 2007-11-14 2011-07-26 Sap Ag Systems and methods for modular information extraction
US8185509B2 (en) * 2008-10-15 2012-05-22 Sap France Association of semantic objects with linguistic entity categories
US20100138402A1 (en) * 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers
JP4645731B2 (ja) * 2008-12-10 2011-03-09 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像データ管理方法、およびコンピュータプログラム
JP2010149537A (ja) * 2008-12-23 2010-07-08 Autonetworks Technologies Ltd 制御装置、制御方法及びコンピュータプログラム
JP5540537B2 (ja) * 2009-03-24 2014-07-02 株式会社オートネットワーク技術研究所 制御装置、制御方法及びコンピュータプログラム
US8290968B2 (en) 2010-06-28 2012-10-16 International Business Machines Corporation Hint services for feature/entity extraction and classification
CN102737030A (zh) * 2011-04-06 2012-10-17 上海量明科技发展有限公司 专利文档的数据输出方法、终端及系统
JP2016133861A (ja) * 2015-01-16 2016-07-25 株式会社ぐるなび 情報多言語変換システム
US10776424B2 (en) * 2016-07-29 2020-09-15 Newswhip Media Limited System and method for identifying and ranking trending named entities in digital content objects
US10803057B1 (en) 2019-08-23 2020-10-13 Capital One Services, Llc Utilizing regular expression embeddings for named entity recognition systems
US11586812B2 (en) 2019-10-31 2023-02-21 International Business Machines Corporation Unsupervised generation of rules for an adapter grammar
US10904027B1 (en) * 2020-03-31 2021-01-26 Amazon Technologies, Inc. Usage-based device naming and grouping
CN116737924B (zh) * 2023-04-27 2024-06-25 百洋智能科技集团股份有限公司 一种医疗文本数据处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1259709A (zh) * 1998-09-17 2000-07-12 国际商业机器公司 在文档中嵌入信息的方法和系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JPH10283355A (ja) 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JP3575242B2 (ja) * 1997-09-10 2004-10-13 日本電信電話株式会社 キーワード抽出装置
JP2001134600A (ja) 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
JP2001318792A (ja) * 2000-05-10 2001-11-16 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP2002334076A (ja) * 2001-05-10 2002-11-22 Communication Research Laboratory テキスト処理方法
JP4106889B2 (ja) 2001-09-25 2008-06-25 沖電気工業株式会社 情報検索システム
US7315810B2 (en) 2002-01-07 2008-01-01 Microsoft Corporation Named entity (NE) interface for multiple client application programs
US7143091B2 (en) * 2002-02-04 2006-11-28 Cataphorn, Inc. Method and apparatus for sociological data mining
JP4005477B2 (ja) * 2002-05-15 2007-11-07 日本電信電話株式会社 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP4130754B2 (ja) * 2002-08-27 2008-08-06 日本電信電話株式会社 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP2004312627A (ja) * 2003-04-10 2004-11-04 Matsushita Electric Ind Co Ltd テレビジョン受像装置およびその番組情報検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1259709A (zh) * 1998-09-17 2000-07-12 国际商业机器公司 在文档中嵌入信息的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2001-134600A 2001.05.18
JP特开2004-46775A 2004.02.12

Also Published As

Publication number Publication date
US20090119274A1 (en) 2009-05-07
CN101167075A (zh) 2008-04-23
JP2008152774A (ja) 2008-07-03
WO2006134682A1 (ja) 2006-12-21
JP4129048B2 (ja) 2008-07-30
JPWO2006134682A1 (ja) 2009-01-08
JP4977589B2 (ja) 2012-07-18
US7761437B2 (en) 2010-07-20

Similar Documents

Publication Publication Date Title
CN101167075B (zh) 专有表现抽取装置、方法以及程序
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN102549652B (zh) 信息检索装置
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
CN105408890A (zh) 基于声音输入执行与列表数据有关的操作
CN107861753B (zh) App生成索引、检索方法和系统及可读存储介质
CN101655876A (zh) 一种基于语义分析的智能检索系统及方法
CN103678362A (zh) 搜索方法及系统
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
CN102591897A (zh) 文件检索装置以及文件检索方法
CN101770291B (zh) 输入系统语意分析数据散列存储和分析方法
JPH0484271A (ja) 文書内情報検索装置
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN104063367A (zh) 注释检索装置、方法及程序
CN113190692A (zh) 一种知识图谱的自适应检索方法、系统及装置
CN102207947B (zh) 一种直接引语素材库的生成方法
CN110147358B (zh) 自动问答知识库的建设方法及建设系统
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
KR20080082985A (ko) 데이터 파일 조작 방법 및 장치
JP2014049044A (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
CN109947908B (zh) 机器人知识库的建设方法及建设系统
CN106126048B (zh) 一种移动设备的联系人信息的查询方法和装置
CN108846103A (zh) 一种数据查询方法及装置
JP7493195B1 (ja) プログラム、方法、情報処理装置、システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100512

CF01 Termination of patent right due to non-payment of annual fee