CN102087659A - 信息处理装置、预测变换方法以及程序 - Google Patents

信息处理装置、预测变换方法以及程序 Download PDF

Info

Publication number
CN102087659A
CN102087659A CN2010105671803A CN201010567180A CN102087659A CN 102087659 A CN102087659 A CN 102087659A CN 2010105671803 A CN2010105671803 A CN 2010105671803A CN 201010567180 A CN201010567180 A CN 201010567180A CN 102087659 A CN102087659 A CN 102087659A
Authority
CN
China
Prior art keywords
vocabulary
data
predictive transformation
metadata
predictive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105671803A
Other languages
English (en)
Inventor
桝永慎哉
武村知昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102087659A publication Critical patent/CN102087659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种信息处理装置,它包括:输入部分、元数据获取部分、数据形成部分、和预测变换部分。输入部分从用户接收内容的选择。元数据获取部分获取包括词汇的元数据,所述词汇指示与其选择由所述输入部分接收的内容有关的信息。数据形成部分从所获取元数据中提取所述词汇并为每个词汇形成预测变换数据。预测变换部分使用所形成的预测变换数据对来自用户的输入数据进行词汇的预测变换。

Description

信息处理装置、预测变换方法以及程序
技术领域
本发明涉及信息处理装置、预测变换方法以及程序,每一个具有通过对来自用户的键输入数据进行预测变换输出词汇数据的功能。
背景技术
在信息处理装置当中,尤其在像蜂窝式电话那样的便携式设备的情况下,由于空间限制,难以提供具有极好可操作性的键输入器件。因此,在便携式信息处理装置中,为了减轻用户的输入工作,广泛应用预测变换技术。预测变换一种系统,其中计算机根据用户输入的一个或多个键的数据预测用户打算输入的一个或多个词汇,和计算机输出预测结果作为预测变换候选者。
作为在预测变换中选择候选者的方法,有使用事先准备的词典的方法、使用用户输入历史的方法、和有选择地使用最佳词典的方法。
作为有选择地使用最佳词典的方法的一个已知例子,PCT第2009-500954号(专利文献1)的日本译文公开了一种终端向服务器发送包括用户位置信息的词典的获取请求,并且对这个请求作出回应,服务器生成适合用户位置信息的词典并对终端作出回应的技术。而且,已公开日本专利申请第2008-305385号(专利文献2)公开了一种视用户输入的数据的类型(字段类型)而定,自动切换词典的技术。按照这些预测变换方法,由于可以在一定程度上有效地缩小用户希望输入的数据的范围,所以具有可以减轻用户输入工作的效果。
发明内容
但是,按照使用事先准备的词典的方法和使用用户输入历史的方法,只能从原来登记在词典中的常用词中或从用户过去输入的词汇中输出候选者。因此,不可能输出像内容标题那样的新词汇和专门用语和可以经常出现在像电视和电影那样的媒体中但大众不经常使用的新商标作为候选者。
按照专利文献1的技术,由于只将通过预测变换获得的词汇的范围缩小到与用户位置有关的信息,所以使使用受到限制。并且,按照这种技术,由于终端从服务器下载词典数据,所以存在用户开始这种技术之前需要花费一些时间的问题。另一方面,按照专利文献2的技术,肯定可以极好地缩小预测变换的候选者的范围,但当视数据类型而定切换词典时,切换带来了时间延迟。另外,在这些专利文献的任何一种的技术中,不能输出新词汇和专门用语作为候选者。
鉴于上述情况,最好是提供可以输出新词汇和专门用语作为预测变换的候选者,并且可以输出反映用户偏爱的候选者的信息处理装置、预测变换方法以及程序。
按照本发明的一个实施例,提供了一种信息处理装置,包括:输入部分,用于从用户接收内容的选择;元数据获取部分,用于获取包括词汇的元数据,所述词汇指示与其选择由所述输入部分接收的内容有关的信息;数据形成部分,用于从所获取元数据中提取所述词汇并为每个词汇形成预测变换数据;以及预测变换部分,用于使用所形成的预测变换数据对来自用户的输入数据进行词汇的预测变换。
按照该实施例,所述元数据获取部分获取用户选择的内容的元数据,所述数据形成部分提取包括在所获取内容的元数据中的词汇,并且为每个词汇形成预测变换数据,以及预测变换部分使用所形成的预测变换数据对来自用户的输入数据进行词汇的预测变换。因此,可以输出像从内容的元数据中提取的新词汇和专门用语那样的词汇作为预测变换的候选者,也就是说,可以输出反映用户偏爱的新词汇和专门用语。
当从一个元数据中提取的第一词汇是从所述元数据中提取的第二词汇的组元时,所述数据形成部分可以将可替代信息赋予第一词汇的预测变换数据,并且,当将第一词汇确定为作为预测变换结果的第一候选者时,所述预测变换部分可以根据可替代信息将第二词汇确定为作为预测变换结果的第二候选者。据此,提高了输出用户希望的词汇作为预测变换候选者的可能性。
当从一个元数据中提取多个词汇时,所述数据形成部分可以将共同属性信息赋予这些词汇的预测变换数据组,并且,当将这些词汇之一确定为作为预测变换结果的第一候选者时,所述预测变换部分可以根据所述属性信息将其它词汇确定为作为预测变换结果的第二候选者。按照这种配置,也提高了输出用户希望的词汇作为预测变换候选者的可能性。
所述数据形成部分可以根据提取状态,获取与从元数据中提取的词汇有关的权重值,并且形成进一步包括权重值的预测变换数据,所述信息处理装置可以进一步包括能够存储所述数据形成部分形成的多个预测变换数据的存储部分;以及归一化处理部分,用于在考虑与包括在所述存储部分存储的预测变换数据组中的权重值有关的时间新鲜度的同时进行归一化处理,并且,当将多个词汇确定为作为预测变换结果的候选者时,所述预测变换部分可以根据包括在这些词汇的预测变换数据组中的权重值,将确定为作为预测变换结果的候选者的词汇区分优先顺序。按照这种配置,预测变换的精度长期不会下降。另外,如果预测变换数据组被设置成从年代最老的预测变换数据开始删除,则可以抑制存储预测变换数据的不断扩大区域引起的预测变换速度和变换精度的下降。
所述数据形成部分可以根据来自元数据的词汇的出现次数获取权重值。据此,可以获得合理的权重值。
所述信息处理装置可以进一步包括:内容数据获取部分,用于获取内容的实际数据;以及识别部分,用于通过图像识别和语音识别的至少一种从所获取内容的实际数据中识别词汇,并且将这种识别的结果作为元数据提供给所述数据形成部分。据此,可以获取不能从通常元数据中获得的各种词汇的预测变换数据。
基于本发明另一种观点的预测变换数据方法包括:由输入部分从用户接收内容的选择;由元数据获取部分获取包括词汇的元数据,所述词汇指示与其选择由所述输入部分接收的内容有关的信息;由数据形成部分从所获取元数据中提取所述词汇,并为每个词汇形成预测变换数据;以及由预测变换部分使用所形成的预测变换数据对来自用户的输入数据进行词汇的预测变换。
基于本发明另一种观点的程序,运行计算机:作为输入部分,用于从用户接收内容的选择;作为元数据获取部分,用于获取包括词汇的元数据,所述词汇指示与其选择由所述输入部分接收的内容有关的信息;作为数据形成部分,用于从所获取元数据中提取所述词汇并为每个词汇形成预测变换数据;以及作为预测变换部分,用于使用所形成的预测变换数据对来自用户的输入数据进行词汇的预测变换。
按照本发明,可以输出像从内容的元数据中提取的新词汇和专门用语那样的词汇作为预测变换的候选者,也就是说,可以像输出反映用户偏爱的新词汇和专门用语那样的词汇。
借助于如附图所例示的本发明的最佳方式实施例的如下详细描述,将使本发明的这些和其它目的、特征和优点变得更加显而易见。
附图说明
图1是示出遵从即时电视标准(TV-Anytime)的元数据的一个例子的图形;
图2是示出按照本发明第一实施例的信息处理装置的硬件配置的图形;
图3是示出在第一实施例的信息处理装置中进行预测变换的功能配置的方块图;
图4是与第一实施例的信息处理装置中元数据的获取有关的流程图;
图5是示出第一实施例的信息处理装置中词汇提取处理模块的处理的图形;
图6是第一实施例的信息处理装置中预测变换数据的配置的说明图;
图7是示出如图6所示的预测变换数据的更新例子的图形;
图8是示出第一实施例的信息处理装置中输入变换处理模块的预测变换算法的图形;以及
图9是示出在第二实施例的信息处理装置中进行预测变换的功能配置的方块图。
具体实施方式
在下文中,将参考附图描述本发明的实施例。
这些实施例将按如下次序描述。
1.第一实施例的概况
2.关于元数据
3.按照第一实施例的信息处理装置
4.元数据的获取
5.从元数据中形成预测变换数据
6.预测变换
7.从图像和语音数据中获取元数据
8.第一实施例的效果
9.第二实施例
10.其它修改
[1.第一实施例的概况]
第一实施例涉及具有预测变换功能的信息处理装置,该预测变换功能通过对用户输入的键进行预测变换确定一个或多个词汇数据组作为候选者,将候选者区分优先顺序,并输出候选者。具有预测变换功能的信息处理装置的例子是蜂窝式电话、个人数字助理(PDA)、游戏机、便携式个人计算机、和便携式媒体播放器,但本发明不局限于这些。
这个实施例的信息处理装置可以通过网络或广播电波接收内容的数字数据,并且可以进行播放和记录的至少一种。为了确定要播放或记录的内容,信息处理装置的用户从服务器获取用户选择的内容的元数据,并且如果有必要,用户可以在显示屏上观看内容的描述。信息处理装置分析所获取数据,从元数据中提取表示像内容的标题那样与内容有关的信息的词汇,形成词汇的预测变换数据,并保存数据。如果出现用户输入的键,信息处理装置使用预测变换数据进行预测变换,显示作为预测变换候选者的一个或多个词汇数据组使用户可以选择其中之一,并且确定所选词汇数据作为来自用户的输入数据。
[2.关于元数据]
内容的元数据是这样形成的数据,即使不实际播放内容,用户也可以知道像标题、细节、梗概、类型和表演者那样与内容有关的信息。获取内容元数据的时间取决于内容的传送服务。例如,当用户确定用户希望获取的内容时,或当正在实际传送内容时,可以获取内容的元数据。
图1示出了遵从TV-Anytime的元数据的一个例子。TV-Anytime元数据是欧洲电信标准协会(ETSI)标准化的元数据的标准。例如,TV-Anytime元数据变成数字视频广播(DVB)中的因特网协议网络电视(IPTV)标准或ITU-T(国际电信联盟-电信标准局)中的IPTV标准的元数据格式的候选者。在TV-Anytime中,TV-Anytime元数据用作用于存储所获取内容及用于搜索所需的信息,以便用户可以在用户希望的时候观看所希望内容。
如图1所示,TV-Anytime元数据包括像内容标题、缩略图URL(统一资源定位符)、内容细节、类型信息和家长信息那样的词汇。每个词汇被描述成所确定元素的值。在一些情况下,内容细节还包括像内容梗概、表演者、创作者(作家,作者)和制片人那样的信息。
这个实施例的元数据不局限于TV-Anytime元数据。例如,在由YouTube,LLC经营的称为视频内容共享网站的YouTube中,存在通过YouTube数据API定义的元数据,这也可以应用在本实施例中。
[3.按照第一实施例的信息处理装置]
图2是示出按照第一实施例的信息处理装置100的硬件配置的图形。
如图2所示,信息处理装置100具有通常计算机的配置。也就是说,通过系统总线102与中央处理单元(CPU)101连接的至少有只读存储器(ROM)103、随机访问存储器(RAM)104、输入部分105、显示部分106、网络接口部分107、外部设备接口部分108、媒体接口部分109和存储部分110。
输入部分105包括多个键,并处理来自用户的指令和数据的输入。用户通过输入部分105输入的指令和数据经由系统总线102发送到CPU 101。显示部分106由像液晶显示器(LCD)那样的显示设备构成。
网络接口部分107处理通过有线或以无线方式与像因特网那样的网络120的连接。外部设备接口部分108是,例如,通用串行总线(USB)接口,用于传送到和来自各种外部设备的数据和程序。像磁盘、光盘、和闪速存储器那样的各种媒体(存储媒体)130可以附在媒体接口部分109上和脱离媒体接口部分109。可以从所附媒体130中读取信息和将信息写入所附媒体130中。
存储部分110包括像硬盘驱动器和半导体存储器那样的非易失性存储设备,并且可以将各种数据和程序存储在其中。程序的例子是操作系统和运行计算机作为信息处理装置100的应用程序。这些程序可以存储在ROM 103中。
CPU 101将程序从ROM 103或存储部分110装入RAM 104中,并进行解释和执行程序的计算。RAM 104是写入从ROM 103或存储部分110装入的程序或程序的运算数据的主存储器。
图3是示出在如图2所示的信息处理装置中根据元数据生成预测变换数据,并使用预测变换数据对来自用户的键输入数据进行预测变换的功能配置(程序配置)的方块图。键输入数据是与在键盘上操作的键相对应的输入数据或它的输入数据串。
如图3所示,作为功能组件,信息处理装置100包括数据获取模块11(元数据获取部分、内容数据获取部分)、元数据处理模块12(元数据获取部分)、数据库13、图像和语音识别模块14(识别部分)、词汇提取处理模块15(数据形成部分)、和输入变换处理模块18(预测变换部分)。
在图3中,数据获取模块11是通过因特网120从传送内容和内容的元数据的服务器140获取内容和元数据的模块。为了获取内容的元数据,数据获取模块11接收用户使用输入部分105选择的内容的标识信息,并根据内容的标识信息生成内容元数据的获取请求,并将获取请求发送给服务器140。该模块是程序中执行特定功能的部分。
元数据处理模块12将数据获取模块11获取的元数据存储在数据库13中。
数据库13构建在存储部分110、RAM104、和媒体130任何一个的存储区域中,并将元数据存储在数据库13中。物理上,数据库13可以构建在存储部分110中。
图像和语音识别模块14从包括在数据获取模块11获取的内容中的图像和声音中识别词汇数据,并将所识别词汇数据存储在数据库13中作为与元数据相对应的数据。由于在许多情况下像内容标题那样的词汇数据包括在作为图像或声音的内容中,所以图像和语音识别模块14识别词汇数据,并将其存储在数据库13中作为元数据。
词汇提取处理模块15从存储在数据库13中的元数据中取出特定名称的元素的值,如果有必要,进行词素分析,提取该元素中的词汇(包括单词),为每个词汇形成预测变换数据16,并且以表格形式将预测变换数据16登记在词典17(存储部分)中。物理上,词典17可以构建在存储部分110中。
输入变换处理模块18接收用户通过输入部分105用键输入的数据,使用词典17中的预测变换数据16进行预测变换,并且将与键输入数据相对应的一个或多个词汇数据组输出到显示部分106作为预测变换候选者。作为预测变换的结果,输入变换处理模块18将用户使用输入部分105从显示在显示部分106上的一个或多个预测变换候选者中选择的一个词汇数据供应给应用程序19。
应用程序19是使用输入变换处理模块18供应的词汇数据进行预定操作的程序。
接着,描述这个实施例的信息处理装置100的操作。
[4.元数据的获取]
首先,将描述获取元数据的操作。
图4是与元数据的获取有关的流程图。
首先,数据获取模块11使用超文本标记语言(HTML)浏览器或电子内容指南(ECG),通过因特网120从显示在图3中的服务器140等中获取包括可获取内容的列表,并且将列表显示在显示部分106上(步骤S101)。内容列表的发送者无需是显示在图3中的服务器140。
如果使用输入部分105从内容的所显示列表中选择用户希望观看的内容,数据获取模块11获取像内容的标题和细节那样的信息,并将其显示在显示部分106上(步骤S102)。这里,像内容的标题和细节那样的信息可以是嵌在内容列表中的信息,或可以是通过因特网120从外部新获取的信息。取决于内容传送服务的类型(像YouTube那样),由数据获取模块11获取像内容的标题和细节那样的信息作为元数据。
当用户希望观看的内容是要收费的时,通过因特网120执行内容的购买过程(步骤S103)。
接着,如果数据获取模块11通过输入部分105接收到来自用户的内容获取请求,数据获取模块11将内容获取请求发送给显示在图3中的服务器140,并通过流式传输方法或下载方法开始接收来自服务器140的内容(步骤S104)。当要获取TV-Anytime元数据时,在流式传输或下载内容的时候也从服务器140传送TV-Anytime元数据,并且由数据获取模块11获取这个元数据。
尽管上面描述了两种获取元数据的方法,但元数据的获取方法和获取定时不局限于这些。例如,当要获取免费内容时,在一些情况下也传送TV-Anytime元数据。此外,在一些情况下,元数据包括在内容的列表本身中。在这样的情况下,可以通过分析列表中的描述,来获取元数据。
数据获取模块11以这种方式获取的元数据由元数据处理模块12存储在数据库13中。
[5.从元数据中形成预测变换数据16]
接着,将描述从存储在数据库13中的元数据中形成预测变换数据16的词汇提取处理模块15的操作。图5是示出词汇提取处理模块15进行的处理的图形。
首先,词汇提取处理模块15从存储在数据库13中的元数据中取出特定名称的元素的值,如果有必要,进行词素分析,提取该元素中的词汇(讲话的一部分)(图5:步骤S201),确定所提取单词和多个单词的连接部分作为词汇,为每个词汇形成预测变换数据16,并且以表格形式将预测变换数据16登记在词典17中(图5:步骤S202)。
图6是预测变换数据16的配置的说明图。举例来说,从具有标题“smallTororo”的内容的元数据中提取词汇“small Tororo”、“Taro YAMADA”、“Tororo”和“Satsuki”,并且显示每个词汇的预测变换数据16。
如图6所示,预测变换数据16包括词汇ID、内容ID、词汇、权重、可替代性、家长、以及登记日期和时间。预测变换数据16以表格形式存储。将新词汇的预测变换数据16依次新登记在表格中。
在预测变换数据16的配置中,词汇提取处理模块15将词汇ID唯一地赋予每个词汇。
将内容ID(属性信息)唯一地赋予与提取那个词汇的元数据相对应的内容。内容ID可以由元数据处理模块12指定,或可以由服务提供者指定。
预测变换数据16的配置中的词汇是词汇提取处理模块15从元数据中提取的词汇的实际数据。
预测变换数据16的配置中的权重是根据同一词汇在一个元数据中的出现次数、出现地点(像标题、细节和类型那样)、和内容的实际观看次数,使用预定计算方程计算的值。该权重由输入变换处理模块18用作确定预测变换候选者的级序的信息。
可替代性是指示在从一个元数据提取的多个词汇中,预测变换数据16中的词汇是另一个预测变换数据16中的词汇的组元的信息。可替代性值是另一个预测变换数据16中的词汇ID。也就是说,当从一个元数据中提取的第一词汇是从同一元数据中提取的第二词汇的组元时,词汇提取处理模块15对第一词汇的预测变换数据16赋予可替代性值。在图6中的例子中,由于词汇“Tororo”是词汇“small Tororo”的组元,所以将词汇“small Tororo”的内容ID(=0)登记成词汇“Tororo”的预测变换数据16中的可替代性值。
家长是用于家长锁定的信息。词汇提取处理模块15依照事先定义的家长条件,确定词汇是否应该是家长锁定的对象,并且为应该是家长锁定的对象的词汇设置家长锁定值。输入变换处理模块18将设置了家长锁定值的词汇当作用户受到限制的词汇来对待。
登记日期和时间是登记词汇的预测变换数据16的日期和时间(年、月、日)。
如果加入从新元数据中提取的词汇的预测变换数据16并更新表格,词汇提取处理模块15在考虑预测变换数据16的时间新鲜度的同时对整个表格进行如下归一化处理(图5:步骤S203)。
图7示出了加入从新元数据中提取的词汇的预测变换数据16a所必需的表格的更新例子。这里,图7示出了从具有标题“Pacho under the cliff”的内容的元数据中提取词汇“Pacho under the cliff”、“Taro YAMADA”和“Pacho”,并且加入这些词汇的预测变换数据16a的例子。
在本例中,将表格的归一化处理的触发条件设置成这样,“当加入新日期的预测变换数据时,应该进行归一化处理”。从具有标题“Pacho under the cliff”的内容的元数据中提取的词汇的预测变换数据16a于2009年11月24日加入表格中。在如图7所示的例子中,由于在那个日期之前已存在的预测变换数据16的登记日期和时间是2009年11月23日,所以词汇提取处理模块15降低这些现有预测变换数据16的权重值。在如图7所示的例子中,预测变换数据16的权重值被统一降“1”。这个降低值可以由用户自由设置。通过如上所述降低旧预测变换数据16的权重值,预测变换数据16的新鲜度可以被反映到输入变换处理模块18进行的预测变换。
归一化处理的触发条件可以由用户自由设置。例如,当与日期无关地新加入预测变换数据时,可以进行归一化处理。无论是否加入了新预测变换数据,都可以根据从登记日期和时间开始经过的时间来降低现有预测变换数据的权重值,和最终可能删除了预测变换数据。
在如图7所示的表格中,词汇“Taro YAMADA”的预测变换数据在不同定时被登记了两次。当与已经登记在表格中的那个相同的词汇的预测变换数据被再次登记时,词汇提取处理模块15将现有词汇的词汇ID指定成新登记的词汇的词汇ID。将同一词汇的预测变换数据分开登记在表格中的理由是,由于在各自元数据中出现次数和出现地点不同,所以权重值有可能变得相互不同。输入变换处理模块18将指定了相同词汇ID的多个预测变换数据组当作一个词汇的预测变换数据,并且将总权重值当作那个词汇的权重值。对于这种配置,可以预计预测变换的精度提高了。
[6.预测变换]
接着,将描述使用预测变换数据16的预测变换。
输入变换处理模块18使用与来自用户的键输入数据有关的表格上的预测变换数据16输出一个或多个词汇数据作为预测变换候选者。那时,输入变换处理模块18对作为各种预测变换候选者的词汇数据组计算优先级,并且输出加入了基于优先级的优先级信息组的各自词汇数据组。
图8是示出输入变换处理模块18执行的预测变换算法的图形。输入变换处理模块18依照这种算法进行如下预测变换。在图8中,A、B、C、D、E、F、G、...示出了登记在表格中的不同词汇。
首先,输入变换处理模块18检索在来自用户的键输入数据组与登记在表格中的词汇之间正向匹配的词汇(A),并输出这个词汇(A)作为具有最高优先级的预测变换候选者。如果找到多个词汇(A)(A′),那么,输入变换处理模块18根据它们的权重值确定词汇(A)(A′)的级序,并输出词汇(A)(A′)作为具有级序的多个预测变换候选者。
接着,如果存在与词汇(A)存在可替代关系的词汇(B),输入变换处理模块18输出词汇(B)作为具有次最高优先级的预测变换候选者。如果找到多个词汇(B)(B′),那么,输入变换处理模块18根据它们的权重值确定词汇(B)(B′)的级序,并输出词汇(B)(B′)作为具有级序的多个预测变换候选者。如果存在多个词汇(A)(A′),输入变换处理模块18检索与具有次最高级序的词汇(A′)存在可替代关系的词汇(B″),并重复相同处理。
接着,如果存在属于与词汇(A)相同的内容ID的词汇(C),输入变换处理模块18输出词汇(C)作为具有次最高优先级的预测变换候选者。如果找到多个词汇(C)(C′),那么,输入变换处理模块18根据它们的权重值确定词汇(C)(C′)的级序,并输出词汇(C)(C′)作为具有级序的多个预测变换候选者。如果存在多个词汇(A)(A′),输入变换处理模块18检索属于与具有次最高级序的词汇(A′)相同的内容ID的词汇(C″),并重复相同处理。
接着,当存在与词汇(B)存在可替代关系的词汇(D)时,输入变换处理模块18输出词汇(D)作为具有次最高优先级的预测变换候选者。当找到多个词汇(D)(D′),或当存在多个词汇(B)(B′)时,应该进行与上述相同的操作。
接着,当存在属于与词汇(B)相同的内容ID的另一个词汇(E)时,输入变换处理模块18输出词汇(E)作为具有次最高优先级的预测变换候选者。当找到多个词汇(E)(E′)时,或当存在多个词汇(B)(B′)时,应该进行与上述相同的操作。
接着,当存在与词汇(C)存在可替代关系的词汇(F)(词汇(F)包括作为组元的词汇(C))时,输入变换处理模块18输出词汇(F)作为具有次最高优先级的预测变换候选者。当找到多个词汇(F)(F′)时,或当存在多个词汇(C)(C′)时,应该进行与上述相同的操作。
此后,如果存在属于与词汇(C)相同的内容ID的另一个词汇(G)时,输入变换处理模块18输出词汇(G)作为具有次最高优先级的预测变换候选者。当找到多个词汇(G)(G′)时,或当存在多个词汇(C)(C′)时,应该进行与上述相同的操作。
接着,假定已经形成显示在图7中的预测变换数据16的表格,描述基于该算法的预测变换的特定例子。
当用户输入键输入数据“Pacho”,和输入变换处理模块18识别出它时,输入变换处理模块18通过基于该算法的预测变换,按优先级的降序输出词汇“Pacho”、“Pacho under the cliff”、“Taro YAMADA”、“small Tororo”、“Tororo”和“Satsuki”作为预测变换候选者。
当用户输入键输入数据“YAMADA”时,输入变换处理模块18按优先级的降序输出词汇“Taro YAMADA”、“Pacho under the cliff”、“smallTororo”、“Pacho”、“Tororo”和“Satsuki”作为预测变换候选者。
如上所述,按照这个实施例,如果一个词汇被确定为预测变换候选者,和如果存在含有之前词汇作为组元的另一个词汇,则也可以输出这另一个词汇作为预测变换候选者,或者,也可以输出从与确定为预测变换候选者的词汇相同的内容的元数据中提取的词汇作为预测变换候选者。据此,进一步提高了输出用户所希望的词汇作为预测变换候选者的可能性。
[7.从图像和语音数据中获取元数据]
这个实施例的信息处理装置100可以从与作为从服务器140获取的内容的真实数据的图像和语音数据中获取与元数据相对应的数据,并且可以将其存储在数据库13中。
也就是说,当数据获取模块11获取内容的图像和语音数据时,图像和语音识别模块14从内容的帧图像中识别像标题、表演者和副标题那样的特征,并且将识别结果存储在数据库13中作为元数据。由于在许多情况下像标题和表演者那样的信息也包括在内容的语音数据中,所以图像和语音识别模块14也可以从内容的声音数据中识别信息,并且将该信息存储在数据库13中作为元数据。
如果有必要,词汇提取处理模块15可以通过执行词素分析,从通过图像识别或声音识别获取的元数据中提取词汇,并且将词汇登记在表格中作为预测变换数据16。其它操作与上述相同。
由于元数据是通过图像识别和声音识别从内容的图像和语音数据中提取的,并且将元数据登记在数据库13中,所以可以获取不能从通常元数据中获取的各种词汇的预测变换数据。
[8.第一实施例的效果]
如上所述,按照这个实施例,形成从用户选择的内容的元数据中提取的词汇的预测变换数据16用于预测变换。以这种方式,可以输出从内容的元数据中提取的词汇,即像反映用户偏爱的新词汇和专门用语那样的词汇,作为预测变换候选者。这个实施例还具有未必进行像登记来自用户的数据那样的预定操作的优点。
按照这个实施例,由于进行根据预测变换数据16的新鲜度校正权重值的归一化处理,所以预测变换的精度长期不会下降。另外,如果预测变换数据组16被设置成从年代最老的预测变换数据开始删除,则可以抑制预测变换数据16的不断扩大表格引起的预测变换速度和变换精度的下降。
按照这个实施例,还输出从与对来自用户的键输入数据进行正向匹配确定的词汇相同的元数据中提取的另一个词汇作为预测变换候选者,即使用户忘记了目标词汇,如果用户输入某相关词汇,则也存在可以从预测变换候选者中选择目标词汇的可能性。
[9.第二实施例]
接着,描述本发明的第二实施例。
在第一实施例中,将存储元数据的数据库13配备在信息处理装置中,并从存储在数据库13中的元数据中提取词汇和形成预测变换数据16。但是,在第二实施例中,未必需要数据库13。
图9是示出第二实施例的信息处理装置200的预测变换的功能配置的方块图。在图9中,与显示在图3中的第一实施例的信息处理装置100相同的方块用2字带头的相应号码表示。这里,只描述与第一实施例的信息处理装置100的不同点。
第二实施例的信息处理装置200与第一实施例的信息处理装置100的不同之处在于元数据处理模块212将数据获取模块211获取的元数据直接传送给词汇提取处理模块215,并且使词汇提取处理模块215形成预测变换数据216。图像和语音识别模块214也将从自服务器140中获取的内容的图像和语音数据中识别的像标题和表演者那样的特征数据直接传送给词汇提取处理模块215,以便使词汇提取处理模块215形成预测变换数据216。据此,不含容量相对较大存储部分的信息处理装置200可以进行与第一实施例的信息处理装置100相同的预测变换。
[10.其它修改]
考虑在如图1所示的元数据中包括示出缩略图地址的信息(URL:统一资源定位符)的情况。在这种情况下,在第一实施例的信息处理装置100中,词汇提取处理模块15可以将示出地址的信息识别成一个词汇,并且可以将那个词汇的预测变换数据16登记在表格中。据此,当用户希望观看缩略图时,如果用户输入,例如,内容的标题,用户可以获得作为预测变换候选者的示出地址的信息,并且可以减轻用户搜索示出缩略图的地址的信息的工作。
也可以应用这样的配置,每当一个词汇被登记在表格中时,词汇提取处理模块15就管理用户选择预测变换候选者的次数,并且将次数超过预定值的词汇登记在用在变换模式中而不是用在预测变换中的词典中。
本发明不只局限于上述实施例,当然可以在不偏离本发明主旨的范围内对本发明作各种修改。
本申请包含与公开在2009年12月7日向日本专利局提交的日本优先权专利申请JP 2009-277368中的主题有关的主题,特此通过引用并入其全部内容。
本领域的普通技术人员应该明白,视设计要求和其它因素而定,可以作出各种各样的修改、组合、分组合和变更,它们都在所附权利要求书或其等效物的范围之内。

Claims (9)

1.一种信息处理装置,包含:
输入部分,用于从用户接收内容的选择;
元数据获取部分,用于获取包括词汇的元数据,所述词汇指示与其选择由所述输入部分接收的内容有关的信息;
数据形成部分,用于从所获取元数据中提取所述词汇并为每个词汇形成预测变换数据;以及
预测变换部分,用于使用所形成的预测变换数据对来自用户的输入数据进行词汇的预测变换。
2.按照权利要求1所述的信息处理装置,
其中,当从一个元数据中提取的第一词汇是从所述元数据中提取的第二词汇的组元时,所述数据形成部分将可替代信息赋予第一词汇的预测变换数据,并且,
当将第一词汇确定为作为预测变换结果的第一候选者时,所述预测变换部分根据可替代信息将第二词汇确定为作为预测变换结果的第二候选者。
3.按照权利要求2所述的信息处理装置,
其中,当从一个元数据中提取多个词汇时,所述数据形成部分将共同属性信息赋予这些词汇的预测变换数据组,并且,
其中当将这些词汇之一确定为作为预测变换结果的第一候选者时,所述预测变换部分根据所述属性信息将其它词汇确定为作为预测变换结果的第二候选者。
4.按照权利要求3所述的信息处理装置,
其中,所述数据形成部分根据提取状态,获取与从所述元数据中提取的词汇有关的权重值,并且形成进一步包括权重值的预测变换数据,
所述信息处理装置进一步包含:
能够存储所述数据形成部分形成的多个预测变换数据组的存储部分;以及
归一化处理部分,用于在考虑与包括在所述存储部分存储的预测变换数据组中的权重值有关的时间新鲜度的同时进行归一化处理,并且,
其中当将多个词汇确定为作为预测变换结果的候选者时,所述预测变换部分根据包括在这些词汇的预测变换数据组中的权重值,将确定为作为预测变换结果的候选者的词汇区分优先顺序。
5.按照权利要求4所述的信息处理装置,其中,所述数据形成部分根据来自所述元数据的词汇的出现次数获取权重值。
6.按照权利要求5所述的信息处理装置,进一步包含:
内容数据获取部分,用于获取内容的实际数据;以及
识别部分,用于通过图像识别和语音识别的至少一种从所获取内容的实际数据中识别词汇,并且将这种识别的结果作为所述元数据提供给所述数据形成部分。
7.按照权利要求6所述的信息处理装置,其中,所述元数据获取部分通过网络获取元数据。
8.一种预测变换方法,包含:
由输入部分从用户接收内容的选择;
由元数据获取部分获取包括词汇的元数据,所述词汇指示与其选择由所述输入部分接收的内容有关的信息;
由数据形成部分从所获取元数据中提取所述词汇,并为每个词汇形成预测变换数据;以及
由预测变换部分使用所形成的预测变换数据对来自用户的输入数据进行词汇的预测变换。
9.一种程序,运行计算机:
作为输入部分,用于从用户接收内容的选择;
作为元数据获取部分,用于获取包括词汇的元数据,所述词汇指示与其选择由所述输入部分接收的内容有关的信息;
作为数据形成部分,用于从所获取元数据中提取所述词汇并为每个词汇形成预测变换数据;以及
作为预测变换部分,用于使用所形成的预测变换数据对来自用户的输入数据进行词汇的预测变换。
CN2010105671803A 2009-12-07 2010-11-30 信息处理装置、预测变换方法以及程序 Pending CN102087659A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009277368A JP5564919B2 (ja) 2009-12-07 2009-12-07 情報処理装置、予測変換方法およびプログラム
JP277368/09 2009-12-07

Publications (1)

Publication Number Publication Date
CN102087659A true CN102087659A (zh) 2011-06-08

Family

ID=44083020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105671803A Pending CN102087659A (zh) 2009-12-07 2010-11-30 信息处理装置、预测变换方法以及程序

Country Status (3)

Country Link
US (1) US20110137896A1 (zh)
JP (1) JP5564919B2 (zh)
CN (1) CN102087659A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019162A (zh) * 2017-12-04 2019-07-16 北京京东尚科信息技术有限公司 实现属性归一的方法和装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8631325B1 (en) 2013-08-09 2014-01-14 Zoomdata, Inc. Real-time data visualization of streaming data
GB2528687A (en) 2014-07-28 2016-02-03 Ibm Text auto-completion
US9251276B1 (en) * 2015-02-27 2016-02-02 Zoomdata, Inc. Prioritization of retrieval and/or processing of data
US9817871B2 (en) 2015-02-27 2017-11-14 Zoomdata, Inc. Prioritized retrieval and/or processing of data via query selection
US9389909B1 (en) 2015-04-28 2016-07-12 Zoomdata, Inc. Prioritized execution of plans for obtaining and/or processing data
US9942312B1 (en) 2016-12-16 2018-04-10 Zoomdata, Inc. System and method for facilitating load reduction at a landing zone
CN111522994B (zh) * 2020-04-15 2023-08-01 北京百度网讯科技有限公司 用于生成信息的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101422041A (zh) * 2006-04-17 2009-04-29 微软公司 基于因特网搜索的电视
WO2009075043A1 (ja) * 2007-12-13 2009-06-18 Dai Nippon Printing Co., Ltd. 情報提供システム
US20090249198A1 (en) * 2008-04-01 2009-10-01 Yahoo! Inc. Techniques for input recogniton and completion

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907839A (en) * 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
JP2003174597A (ja) * 2001-12-06 2003-06-20 Canon Inc 放送受信装置、文字処理装置、放送機器、電子装置、文字処理用辞書生成手段、電子装置システム
US8392453B2 (en) * 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
JP4556521B2 (ja) * 2004-07-14 2010-10-06 ソニー株式会社 情報処理装置および方法、プログラム記録媒体、並びにプログラム
JP2006048286A (ja) * 2004-08-03 2006-02-16 Sony Corp 情報処理装置および方法、並びにプログラム
US8135728B2 (en) * 2005-03-24 2012-03-13 Microsoft Corporation Web document keyword and phrase extraction
WO2007024769A2 (en) * 2005-08-22 2007-03-01 The Personal Bee, Inc. Semantic discovery engine
WO2007034651A1 (ja) * 2005-09-26 2007-03-29 Access Co., Ltd. 放送受信装置、文字入力方法、およびコンピュータプログラム
JP2007114932A (ja) * 2005-10-19 2007-05-10 Sharp Corp 文字列入力装置、テレビジョン受像機及び文字列入力プログラム
US7774334B2 (en) * 2006-11-27 2010-08-10 Sony Ericsson Mobile Communications Ab Adaptive databases
US20080126075A1 (en) * 2006-11-27 2008-05-29 Sony Ericsson Mobile Communications Ab Input prediction
JP2008268995A (ja) * 2007-04-16 2008-11-06 Sony Corp 辞書データ生成装置、文字入力装置、辞書データ生成方法、文字入力方法
US20080294982A1 (en) * 2007-05-21 2008-11-27 Microsoft Corporation Providing relevant text auto-completions
JP4821751B2 (ja) * 2007-09-27 2011-11-24 船井電機株式会社 記録再生装置
JP2009199203A (ja) * 2008-02-20 2009-09-03 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101422041A (zh) * 2006-04-17 2009-04-29 微软公司 基于因特网搜索的电视
WO2009075043A1 (ja) * 2007-12-13 2009-06-18 Dai Nippon Printing Co., Ltd. 情報提供システム
US20090249198A1 (en) * 2008-04-01 2009-10-01 Yahoo! Inc. Techniques for input recogniton and completion

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019162A (zh) * 2017-12-04 2019-07-16 北京京东尚科信息技术有限公司 实现属性归一的方法和装置
CN110019162B (zh) * 2017-12-04 2021-07-06 北京京东尚科信息技术有限公司 实现属性归一的方法和装置

Also Published As

Publication number Publication date
US20110137896A1 (en) 2011-06-09
JP2011118803A (ja) 2011-06-16
JP5564919B2 (ja) 2014-08-06

Similar Documents

Publication Publication Date Title
US12001429B2 (en) Methods, systems, and media for interpreting queries
CN102087659A (zh) 信息处理装置、预测变换方法以及程序
CN110309427B (zh) 一种对象推荐方法、装置及存储介质
CN102265276B (zh) 基于上下文的推荐系统
CN108304512B (zh) 一种视频搜索引擎粗排序方法、装置及电子设备
US7860878B2 (en) Prioritizing media assets for publication
JP4129048B2 (ja) 固有表現抽出装置、方法、及びプログラム
CN111767461B (zh) 数据处理方法及装置
CN101267518B (zh) 从内容元数据提取相关信息的方法和装置
CN104160712A (zh) 计算媒体节目之间的相似度
US20100169095A1 (en) Data processing apparatus, data processing method, and program
KR100923505B1 (ko) 사용자 관심도를 반영한 정보검색 랭킹 시스템 및 그 방법
CN104423621A (zh) 拼音字符串处理方法和装置
JP6185379B2 (ja) レコメンド装置およびレコメンド方法
CN107506459A (zh) 一种基于影片相似度的影片推荐方法
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN116881406B (zh) 一种多模态智能文件检索方法及系统
CN101344892B (zh) 信息处理设备及信息处理方法
CN106445922B (zh) 确定多媒体资源的标题的方法及装置
CN110569447B (zh) 一种网络资源的推荐方法、装置及存储介质
CN113407775A (zh) 视频搜索方法、装置及电子设备
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
CN111666522A (zh) 信息处理方法、装置、设备和存储介质
JP5727846B2 (ja) シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム
CN114356979A (zh) 一种查询方法及其相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110608