CN102147805A - 信息处理设备、信息处理方法和程序 - Google Patents

信息处理设备、信息处理方法和程序 Download PDF

Info

Publication number
CN102147805A
CN102147805A CN2011100332840A CN201110033284A CN102147805A CN 102147805 A CN102147805 A CN 102147805A CN 2011100332840 A CN2011100332840 A CN 2011100332840A CN 201110033284 A CN201110033284 A CN 201110033284A CN 102147805 A CN102147805 A CN 102147805A
Authority
CN
China
Prior art keywords
token
standard
unit
point
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100332840A
Other languages
English (en)
Inventor
南拙至
上前田直树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102147805A publication Critical patent/CN102147805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/72Systems specially adapted for using specific information, e.g. geographical or meteorological information using electronic programme guides [EPG]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • H04H60/74Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information using programme related information, e.g. title, composer or interpreter

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了信息处理设备、信息处理方法和程序。该信息处理设备包括:获取内容的标题的获取单元;将标题划分为令牌的分析单元;针对每个令牌计算基于令牌长度并根据标题中令牌的位置加权的评价值的计算单元;针对每个令牌将由示出标题中令牌的位置的序数和评价值示出的令牌点映射到坐标平面上的映射单元;基于所映射的令牌点来决定用作用于提取系列标识符的标准的标准点的坐标和基于标准点的提取标准的决定单元;提取令牌点中、符合提取标准的令牌点的提取单元;以及由与所提取的令牌点相关联的令牌中包括的字符串生成系列标识符的生成单元。

Description

信息处理设备、信息处理方法和程序
技术领域
本发明涉及信息处理设备、信息处理方法和程序。
背景技术
电视或广播节目、电影、报纸或杂志文章和书本都包括系列(series)形式的内容,其中若干部分都具有某一意图。例如,在电视和广播节目中,某些系列由每天同时广播的节目组成,而其他系列具有每周的同一天同时广播的节目。某些以不规律的时间表广播的节目也被称为“系列”。对于电影来说,结局是这里所称的系列中的一部分的一个示例。表明内容是系列中的一部分的信息是很有用的,因为该信息可用在各种方式中。
例如,日本早期公开专利公布No.2007-208365公开了一种关注于“循环节目”的信息处理设备,循环节目是各种类型的系列中、按循环时间表(例如每天的同时或者每周的同时)广播的节目,并且使用了指示系列且包括在EPG(电子节目指南)数据中以区分给定节目是否形成系列的一部分的信息。该信息处理设备具有当给定节目形成系列的一部分时、利用给定节目的EPG数据和与给定节目相同系列的已广播的一个或多个先前部分的EPG数据两者中包括的关键字来更新用户偏好信息的功能。
然而,在公布No.2007-208365中公开的信息处理设备不能用在这样的应用中,其中表明节目是否形成系列的一部分的信息未被包括在EPG数据中。这里,利用内容标题提取系列中的内容的设备是可以想到的。在许多情况下,节目的标题或系列中的其他内容包括共同指派给系列的各部分的系列名。作为一个特定示例,日本早期公开专利公布No.2002-27416公开了一种节目预留设备,该设备能够在系列中各部分的标题已利用指示节目属于一个系列的“系列表达式”链接到系列名时提取系列中的节目。该节目预留设备在主标题(主标题是通过从节目的标题中排除匹配预先设置的系列表达式的字符而产生的)彼此匹配时提取节目作为系列中的节目。
发明内容
然而,在公布No.2002-27416中公开的节目预留设备具有一个问题,即有必要预先设置系列表达式的每一模式作为先验知识(prioriknowledge),系列表达式被预期用作表明节目属于一个系列的表达式。尤其是,由于这种先验知识依据语言而不同,因此有必要针对每种语言研究不同的先验知识。
为此,鉴于上述问题设想了本发明,本发明试图提供一种新颖的、改进的信息处理设备、信息处理方法和程序,其不需要先验知识并且能够从内容的标题中提取用于标识系列内容(即,一系列中的内容)的系列的系列标识符。
根据本发明的一个实施例,提供了一种信息处理设备,包括:标题获取单元,所述标题获取单元获取示出内容的标题的标题字符串;标题分析单元,所述标题分析单元分析由标题获取单元获取的标题字符串并将标题字符串划分为多个令牌(token);评价值计算单元,所述评价值计算单元针对多个令牌中的每一个计算评价值,所述评价值是基于令牌的字符串长度的并且根据标题字符串中令牌的位置被加权;映射单元,所述映射单元针对多个令牌中的每一个将其位置由序数的值和评价值示出的令牌点映射到坐标平面上,所述序数示出标题字符串中令牌的位置;提取标准决定单元,所述提取标准决定单元基于被映射单元映射到坐标平面上的令牌点的坐标,来决定用作用于从标题中提取标识系列的标识符的标准的标准点的坐标和基于标准点的提取标准;提取单元,所述提取单元提取令牌点中、符合提取标准的令牌点;以及标识符生成单元,所述标识符生成单元由与提取单元提取的令牌点相关联的令牌中包括的字符串生成标识符。
根据上述配置,可以从内容的标题字符串中提取用于标识系列的系列标识符。这里,通过分析内容的标题字符串,标题字符串被划分为多个令牌。随后针对每个令牌基于字符串长度和令牌的序数计算评价值,并且基于评价值决定要提取作为系列标识符的一部分的令牌。通过结合所提取的令牌,生成了系列标识符。即,令牌的字符串的长度越长,评价值就越高,并且令牌离标题字符串的开头越近,评价值就越高。这意味着令牌的字符串长度越长并且令牌的位置离开头越近,该令牌将用作系列标识符的可能性就越大。由于在许多情况下,系列名被插入在靠近标题字符串的开头的位置处,因此存在更容易提取表达系列的字符串的效果。此时,由于不需要诸如辞典之类的先验知识来提取系列标识符,因此存在以下效果:当本发明被应用于不同语言时,没有必要考虑先验知识的更新并且没有必要准备新的先验知识。
提取标准决定单元可以基于标准线和令牌点的坐标之间的位置关系来决定提取标准,标准线在坐标平面上穿过标准点并且具有指定梯度。
评价值计算单元可以利用加权系数对每个评价值加权,令牌的序数越低,加权系数的值就越高,并且提取标准决定单元可以决定提取标准以便提取其评价值与标准线上的点相比较大的令牌点。
提取单元可以输出表明符合提取标准的令牌点的提取是否成功的成功/失败信息,并且信息处理设备还包括反馈控制单元,所述反馈控制单元基于从提取单元接收的成功/失败信息来调节标准线的梯度值。
提取单元可以操作来当匹配提取标准的令牌点的数目低于指定成功/失败判断值时判断出令牌点的提取失败。
反馈控制单元可以通过向标准线的梯度值加上指定调节值和从标准线的梯度值减去指定调节值中的一种来调节标准线的梯度值。
反馈控制单元可以通过将标准线的梯度值乘以指定调节值和将标准线的梯度值除以指定调节值中的一种来调节标准线的梯度值。
反馈控制单元可以根据从提取单元接收的成功/失败信息表明提取成功的次数和成功/失败信息表明提取失败的次数分别增大和减小成功值和失败值,并且当成功值超过指定成功阈值时或者当失败值超过指定失败阈值时可操作来调节标准线的梯度值。
反馈控制单元可以操作来当从提取单元接收的成功/失败信息表明提取已连续成功达至少某一次数或更多时或者当成功/失败信息表明提取已连续失败达至少某一次数时调节标准线的梯度值。
反馈控制单元可以操作来当调节导致标准线的梯度值超过指定梯度范围时将标准线的梯度值设置为指定初始值。
评价值计算单元可以操作来当一令牌的字符串长度短于指定的最小字符串长度时忽略评价值的计算并从提取中排除该令牌。
标题分析单元可以操作来当作为分析结果生成的令牌的数目低于指定的最小令牌数目时将所生成的令牌输出到标识符生成单元,并且标识符生成单元通过组合从标题分析单元输入的令牌来生成标识符。
另外,根据本发明的一个实施例,提供了一种信息处理方法,包括以下步骤:获取示出内容的标题的标题字符串;分析所获取的标题字符串并将标题字符串划分为多个令牌;针对多个令牌中的每一个计算评价值,所述评价值是基于令牌的字符串长度的并且根据标题字符串中令牌的位置被加权;针对多个令牌中的每一个将其位置由序数的值和评价值示出的令牌点映射到坐标平面上,所述序数示出标题字符串中令牌的位置;基于被映射到坐标平面上的令牌点的坐标,来决定用作用于从标题中提取标识系列的标识符的标准的标准点的坐标和基于标准点的提取标准;提取令牌点中、符合提取标准的令牌点;以及由与所提取的令牌点相关联的令牌中包括的字符串生成标识符。
另外,根据本发明的一个实施例,提供了一种用于使得计算机执行以下处理的程序:获取示出内容的标题的标题字符串;分析所获取的标题字符串并将标题字符串划分为多个令牌;针对多个令牌中的每一个计算评价值,所述评价值是基于令牌的字符串长度的并且根据标题字符串中令牌的位置被加权;针对多个令牌中的每一个将其位置由序数的值和评价值示出的令牌点映射到坐标平面上,所述序数示出标题字符串中令牌的位置;基于被映射到坐标平面上的令牌点的坐标,来决定用作用于从标题中提取标识系列的标识符的标准的标准点的坐标和基于标准点的提取标准;提取令牌点中、符合提取标准的令牌点;以及由与所提取的令牌点相关联的令牌中包括的字符串生成标识符。
根据上述本发明的实施例,可以从内容的标题中提取用于标识节目的系列的系列标识符或者形成系列的其他内容,而无需先验知识。
附图说明
图1是示出根据本发明一个实施例的信息处理设备的配置的功能框图;
图2是示出根据本实施例的信息处理方法的一个示例的流程图;
图3是图2的流程图中的反馈判断处理的子流程图;
图4是用于示出通过分析标题的第一示例而获得的序数(ordinalnumber)和评价值被映射到的坐标平面的一个示例的示图;
图5是用于示出通过分析标题的第二示例而获得的序数和评价值被映射到的坐标平面的另一示例的示图;
图6是用于示出通过分析标题的第三示例而获得的序数和评价值被映射到的坐标平面的又一示例的示图;
图7是用于示出通过分析标题的第四示例而获得的序数和评价值被映射到的坐标平面的又一示例的示图;以及
图8是用于示出通过利用3度(3-gram)分析分析图7中的相同标题而获得的序数和评价值被映射到的坐标平面的一个示例的示图。
具体实施方式
下文中将参考附图详细描述本发明的优选实施例。注意,在该说明书和附图中,具有基本相同的功能和结构的结构元件被用相同的标号表示,并且省略了对这些结构元件的重复说明。
下面的描述按照以下给出的顺序进行:
1.信息处理设备的功能配置
2.信息处理设备的示例性操作
3.示例性应用
4.示例性效果
1.信息处理设备的功能配置
首先,将参考图1描述根据本发明一个实施例的信息处理设备的功能配置。图1是示出根据本发明一个实施例的信息处理设备的配置的功能框图。
信息处理设备100是系列标识符提取设备,其具有在无需先验知识的情况下、从内容的标题中提取用于标识一系列系列内容的系列标识符的功能。这里使用的表达“内容”例如指电视或无线电节目、电影、报纸或杂志文章、或者书,但是并不限于这些示例。本实施例中使用的表达“系列内容”指具有某一共同的意图的内容,并且假定所关注的内容包括共用于系列中各部分的系列名。
另外,由根据本实施例的信息处理设备100提取的系列标识符是用于标识系列的字符串并且不需要是有意义的词语。例如,系列标识符仅需要可以标识内容对应于相同系列中的各部分(当该内容的系列标识符被彼此比较时)。因此,用在本实施例中的系列标识符不需要匹配由内容生产者给出的系列名。
为了实现上述功能,信息处理设备100主要包括标题获取单元102、标题分析单元104、评价值计算单元106、映射单元108、提取标准决定单元110、提取单元112、标识符生成单元114、标识符输出单元116、反馈控制单元118和存储器单元120。
标题获取单元102具有获取表明节目的标题的标题字符串或其他内容的功能。例如,在内容是电视节目的情况下,标题获取单元102通过从SI/EPG(服务信息/电子节目指南)的标题字段中提取标题字符串来获取标题字符串。或者,当从因特网上的内容信息获取信息的情况下,标题获取单元102通过提取HTML(超文本标记语言)中被标题标签(例如<TITLE>标签)包围的字符串来获取标题字符串。作为另一替换示例,标题获取单元102通过从RSS馈送或Atom馈送的数据中提取被指定标题标签包围的字符串来获取标题字符串。
标题分析单元104具有分析由标题获取单元102获取的标题字符串并根据分析结果将标题字符串划分为多个令牌的功能。作为用于这种分析的方法,可以使用一般用于分析字符串的任何方法。如果作为分析结果生成的令牌数目低于指定的最小令牌数目,则标题分析单元104将所生成的令牌输入到标识符生成单元114中。例如,如果最小令牌数目已预先设置为3并且作为分析结果生成的令牌数目为2,则对于这种标题不执行后面将描述的提取值计算处理等等。同时,当作为分析结果生成的令牌数目等于或大于指定的最小令牌数目时,标题分析单元104将所生成的令牌输入到评价值计算单元106中。
评价值计算单元106具有针对通过划分作为标题分析单元104的分析结果的标题字符串而获得的多个令牌中的每一个计算评价值的功能。更具体而言,评价值计算单元106通过对作为标题分析单元104的分析结果的多个令牌执行序列生成处理、噪声去除处理和加权处理来计算评价值。这里,“评价值”是用在根据本实施例的信息处理设备100中、在判断是否提取用作系列标识符的一部分的令牌时的评价的值。评价值是基于令牌的字符串长度计算的。令牌的评价值还是通过根据标题字符串中令牌的位置的加权而计算的。例如,评价值可以是通过将令牌的字符串长度乘以加权系数而产生的值。这里,加权系数是这样一个系数,令牌距离标题字符串的开头越近,其值越大。如果令牌的字符串长度短于指定的最小字符串长度,则评价值计算单元106可以从提取中排除短于指定的最小字符串长度的令牌,而无需计算评价值。例如,如果最小的字符串长度被设置为3,则从提取中排除由一个或两个字符组成的令牌。
映射单元108具有针对评价值计算单元106已计算了评价值的多个令牌中的每一个、将其位置由示出标题字符串中令牌的位置的序数的值和由评价值计算单元106计算出的评价值的值示出的令牌点映射到坐标平面上的功能。作为一个示例,这里所称的“序数”是通过将多个数从前头起按顺序指派给由评价值计算单元106生成的序列而产生的值。由于评价值计算单元106所生成的序列是以与标题字符串的开头最近的令牌开始、从第一项起按顺序存储有与令牌相对应的评价值的序列,因此序数是反映了标题字符串中令牌的位置的数。
提取标准决定单元110具有决定提取标准的功能,提取标准是用于提取被映射单元108映射到坐标平面上的令牌点中、要用作标识系列的系列标识符的一部分的令牌点的标准。这里,提取标准决定单元110首先基于被映射单元108映射在坐标平面上的令牌点的坐标来决定标准点的坐标。标准点应当优选地是位于映射的令牌点附近、并且位于令牌点中具有最高坐标的点和具有最低坐标的点之间的区域中的点。例如,标准点可以具有被计算作为最高坐标和最低坐标的平均值的坐标。提取标准决定单元110随后基于标准点决定提取标准。例如,提取标准决定单元110可以基于具有穿过标准点的指定梯度α的标准线和被映射单元108映射的令牌点之间的坐标平面上的位置关系来决定提取标准。更具体而言,提取标准决定单元110可以决定提取标准以使得坐标平面上位于标准线上方的每个令牌点被提取出来。表达式“位于标准线上方的令牌点”指与在与令牌点具有相同序数处的标准线上的点的评价值相比、具有大评价值的令牌点。
提取单元112具有用于根据提取标准决定单元110所决定的提取标准提取令牌点的功能。即,提取单元112判断被映射单元108映射的各个令牌点是否符合由提取标准决定单元110决定的提取标准,并且提取符合提取标准的令牌点。提取单元112随后将表明符合提取标准的令牌点的提取是否成功的成功/失败信息输出到反馈控制单元118。在这样作时,如果符合提取标准的令牌点的数目低于指定成功/失败判断值,则提取单元112输出表明令牌点的提取失败的成功/失败信息,而如果符合提取标准的令牌点的数目等于或高于指定成功/失败判断值,则提取单元112输出表明令牌点的提取成功的成功/失败信息。
标识符生成单元114具有用于由输入的令牌生成系列标识符的功能。标识符生成单元114从标题分析单元104或者提取单元112接收令牌的输入,并通过结合输入的令牌中包括的字符串来生成系列标识符。
标识符输出单元116具有用于输出由标识符生成单元114生成的系列标识符的功能。标识符输出单元116能够根据信息处理设备100的功能将系列标识符输出到合适的输出目的地。
反馈控制单元118具有用于基于从标识符输出单元116接收的成功/失败信息来调节标准线的梯度值α的功能。反馈控制单元118增大或减小表明成功/失败信息已指示提取成功的次数的成功值和表明成功/失败信息已指示提取失败的次数的失败值,并在成功值已超过指定成功阈值或者失败值已超过指定失败阈值的情况下调节标准线的梯度α。反馈控制单元118通过向标准线的梯度值α加上指定调节值或者从标准线的梯度值α减去指定调节值来调节标准线的梯度值α。在这样作时,作为在相加时使用的调节值的加法调节值和作为在相减时使用的调节值的减法调节值可以是不同的值。反馈控制单元118可以对标准线的梯度值α预先设置梯度范围,并且在调节导致标准线的梯度值α超过梯度范围的情况下可以将标准线的梯度值α重置为指定初始值。
存储器单元120是存储被信息处理设备100的各个单元用在处理中的各种参数等的存储设备。存储器单元120可以存储例如标准线的梯度的指定值α。作为其他示例,存储器单元120还可以存储成功值和失败值的值。作为另一示例,存储器单元120还可以存储成功阈值和失败阈值的值。提取标准决定单元110和反馈控制单元118例如能够通过参考存储器单元120来获取这些值。提取标准决定单元110和反馈控制单元118还可以通过向存储器单元120写入来更新这些值。
2.信息处理设备的示例性操作
接下来,将参考图2和3中的流程图描述由信息处理设备100的操作实现的信息处理方法。图2是示出根据本实施例的信息处理方法的一个示例的流程图。图3是示出图2的流程图中的步骤S124的反馈判断处理的详细流程的子流程图。
注意,下面的说明描述了作为特定示例当以下标题字符串被输入到信息处理设备100中时的处理:
“(HD)(PG)Radio Favorites-Swallows(1)Something has Changed”
在该说明中出现的信息处理设备100的功能单元的名称与图1相同。
首先,信息处理设备100的标题获取单元102从SI/EPG的标题字段获取标题字符串“(HD)(PG)Radio Favorites-Swallows(1)Something hasChanged”(S102)。
接下来,作为标题分析单元104对标题字符串“(HD)(PG)RadioFavorites-Swallows(1)Something has Changed”执行分析(S104)的结果,获得了下面示出的分析结果:
“HD/PG/Radio/Favorites/Swallows/1/Something/has/Changed”
这里,通过斜线(/)分隔的各个字符串是令牌。标题分析单元104随后判断作为分析结果是否生成了三个或更多个令牌(S106)。如果此时令牌的数目低于3,则标题分析单元104将所生成的令牌输入到标识符生成单元114中。标识符生成单元114随后通过结合所有输入的令牌来生成系列标识符(S108)。
在本示例中,由于作为分析结果生成的令牌数目为3或更高,因此处理进行到评价值计算单元106的评价值计算处理。评价值计算处理在图2中被划分为序列生成处理(S110)、噪声去除处理(S112)和加权处理(S114)。
更具体而言,在步骤S110中,评价值计算单元106首先对标题分析单元104的分析结果“HD/PG/Radio/Favorites/Swallows/1/Something/has/Changed”执行序列生成处理。即,评价值计算单元106生成字符串长度序列,其各项是示出各个令牌的字符串长度的数。对于本示例获得的字符串长度序列如下所示:
D={2,2,5,9,8,1,9,3,7}
这里,评价值计算单元106在如下前提下使用字符串长度:形成标题字符串的一部分的字符串越长,该字符串的意义就越重要。由于对于示出系列的系列名来说标识系列的功能是很重要的,因此极短的令牌(例如单字符和两字符令牌)能够标识系列的可能性很低。为此,评价值计算单元106以评价值的大小来反映字符串长度。
之后,评价值计算单元106在步骤S112中从字符串长度序列D中去除噪声。更具体而言,评价值计算单元106从字符串长度序列D={2,2,5,9,8,1,9,3,7}中删除低于最小字符串长度的值。在本示例中,由于最小字符串长度为3,因此评价值计算单元106从字符串长度序列D中删除其值为1或2的项目。这与上述前提一致,即,形成标题字符串的一部分的字符串越长,该字符串的意义就越重要。从本实施例中所使用的示例性标题可以理解,在某些情况下,与媒体内容的内容没有直接联系的字符(例如“HD”(例如指示“高清晰度”))被包括在标题字符串中。通过执行该噪声去除处理,评价值计算单元106能够去除与节目内容没有直接关系的噪声或者其他内容的影响。在噪声去除之后的字符串长度序列是D={5,9,8,9,3,7}。
接下来,评价值计算单元106还在步骤S114中执行加权处理。更具体而言,评价值计算单元106针对噪声去除之后的字符串长度序列D({5,9,8,9,3,7})计算加权系数,并对字符串长度序列D加权。在本示例中,如果噪声降低之后的字符串长度序列的大小(即,项目的总数)被表示为s并且序数被表示为n,则加权系数被表示为2s-n。在许多情况下,节目的标题中与系列名相对应的字符串或者其他内容位于标题的开头附近。为此,这里使用的加权系数是如下设置的系数:其使得一项目离字符串长度序列中的第一项越近,加权系数的值越大。在字符串长度序列D被用加权系数加权之后,可以获得示出评价值的评价值序列。在该示例中,评价值序列被给定为{32×5,16×9,8×8,4×9,2×3,1×7}。
接下来,映射单元108将其位置由序数的值和评价值指定的令牌点映射到坐标平面上(S115)。即,如果x轴被用于序数并且y轴被用于评价值,则在本示例中,映射单元108将由坐标(1,160)、(2,144)、(3,64)、(4,36)、(5,6)和(6,7)表示的六个令牌点映射到坐标平面上。
这里,令牌点被映射到的坐标平面在图4中示出。图4是示出通过分析标题“HD/PG/Radio/Favorites/Swallows/1/Something/has/Changed”而获得的序数和评价值被映射到的坐标平面的一个示例的示图。图4中所示的坐标平面包括已被映射单元108映射的六个令牌点。与令牌“Radio”相对应的令牌点11的坐标是(1,160)。与令牌“Favorites”相对应的令牌点12的坐标是(2,144)。与令牌“Swallows”相对应的令牌点13的坐标是(3,64)。与令牌“Something”相对应的令牌点14的坐标是(4,36)。与令牌“has”相对应的令牌点15的坐标是(5,6)。与令牌“Changed”相对应的令牌点16的坐标是(6,7)。
一旦序数和评价值已被映射到坐标空间上,提取标准决定单元110接下来就决定作为用于提取系列标识符的标准的提取标准(S116)。提取标准决定单元110首先决定用于提取系列标识符的标准点。作为一个示例,标准点可以是已映射的令牌点的坐标中、具有最高坐标和最低坐标之间的平均坐标的点。这里所称的最高坐标和最低坐标可以基于评价值的值来决定。例如,在图4的示例中,其坐标是令牌点11(具有最高坐标)和令牌点15(具有最低坐标)的平均值的点被设置为标准点251。在这种情况下,标准点251的坐标是(3,83)。提取标准决定单元110接下来绘制穿过标准点251并且其梯度是指定值α的标准线201。之后,用于提取位于标准线201上方的令牌点的提取标准被决定。
一旦提取标准被决定,提取单元112就提取符合所决定的提取标准的令牌点。之后,提取单元112判断符合提取标准的令牌的数目是否等于或高于成功/失败判断值(S118)。在本示例中,成功/失败判断值被设置为1。当在步骤S118的判断中符合提取标准的令牌的数目为1或更大时,提取单元112将所提取的令牌点输入到标识符生成单元114中。标识符生成单元114随后结合与从提取单元112输入的令牌点相关联的令牌中包括的字符串以生成系列标识符(S120)。另外,提取单元112将表明提取成功的成功/失败信息输入到反馈控制单元118中。同时,如果在步骤S118的判断中符合提取标准的令牌的数目不为1或更大,则提取单元112将表明提取失败的成功/失败信息输入到反馈控制单元118中。
作为一个示例,对于图4中的示例,提取单元112提取位于标准线201上方的令牌点,标准线201穿过标准点251并且具有指定值α的梯度(在本示例中假定α=1)。例如,如果标准线是由表达式y=x+80示出的线,由于令牌点11具有比在x=1位置处位于标准线201上的点(1,81)大的y值(它是与评价值相对应的值),则判断出令牌点11位于标准线201上方并且是符合提取标准的令牌点。随后以相同的方式判断令牌点12至17是否符合提取标准,并且作为结果,令牌点11和12被提取作为符合提取标准的点。这意味着在本示例中,标识符生成单元114提取字符串“RadioFavorites”作为系列标识符。
反馈控制单元118从提取单元112接收成功/失败信息,并且如果所接收的成功/失败信息表明提取成功则增大成功值(S122)。同时,如果所接收的成功/失败信息表明提取失败,则反馈控制单元118增大失败值(S124)。接下来,反馈控制单元118利用成功值和失败值执行反馈判断处理(S126)。
现在将参考图3描述反馈判断处理的详细处理。图3是示出图2的流程图中的反馈判断处理的详细处理的子流程图。
首先,反馈控制单元118判断失败值是否已超过失败阈值(S202)。这里,失败阈值是预先设置的值并且作为一个示例是存储在存储器单元120中的值。如果在步骤S202的判断中失败值已超过失败阈值,则反馈控制单元118从标准线的梯度α中减去指定调节值以调节标准线的梯度值α。反馈控制单元118随后将这种情况下的反馈判断的结果设置为“真”(S210)。
同时,如果在步骤S202的判断中失败值并未超过失败阈值,则反馈控制单元118判断成功值是否已超过成功阈值(S206)。如果在步骤S206的判断中成功值已超过成功阈值,则反馈控制单元118向标准线的梯度α的值加上指定调节值以调节标准线的梯度值α。反馈控制单元118随后将这种情况下的反馈判断的结果设置为“真”(S210)。
同时,如果在步骤S206的判断中成功值并未超过成功阈值,即,当成功值和失败值都未超过指定阈值时,反馈控制单元118并不调节标准线的梯度值α并且将反馈判断的结果设置为“假”(S212)。
说明现在返回到图2。通过执行步骤S126中的反馈判断处理输出了反馈判断结果,并且反馈控制单元118接下来判断所输出的反馈判断结果是否为“真”(S128)。如果在步骤S128的判断中反馈判断结果为“真”,即,当反馈判断结果表明标准线的梯度值α已被调节时,处理返回到步骤S116中决定提取标准的处理。同时,如果在步骤S128的判断中反馈判断结果不为“真”,则信息处理设备100结束系列标识符提取处理。
3.示例性应用
接下来,将参考图5至8描述根据本实施例的信息处理设备100的系列标识符提取的其他示例。图5是示出通过分析标题“TVKid Weekly-AGift For Jim”而获得的序数和评价值被映射到的坐标平面的另一示例的示图。图6是示出通过分析标题“Cartoon-Clockwork Samurai-What’s forLunch?”而获得的序数和评价值被映射到的坐标平面的另一示例的示图。图7是示出通过分析标题“The MacGvyer(2)Golden Triangle”而获得的序数和评价值被映射到的坐标平面的另一示例的示图。图8是用于示出通过利用3度分析分析图7中的相同标题而获得的序数和评价值被映射到的坐标平面的一个示例的示图。
首先,将描述对于标题获取单元102已获取了“TVKid Weekly-AGift For Jim”作为标题字符串的情况的系列标识符提取的示例。注意,由于下面描述的操作中的详细处理与前面描述的相同,因此不再给出进一步的说明,相反,下面的描述主要关注在系列标识符提取处理期间计算出的参数值和该处理的结果。
当标题分析单元104分析标题字符串“TVKid Weekly-A Gift ForJim”时,该标题字符串被划分为下面示出的多个令牌:
“TVKid/Weekly/A/Gift/for/Jim”
由评价值计算单元106基于该令牌的字符串长度计算出的字符串长度序列如下:
{5,6,1,4,3,3}
在评价值计算单元106已执行了噪声去除处理之后,从上面给出的字符串长度序列获得了下面的字符串长度序列:
{5,6,4,3,3}
当评价值计算单元106利用加权系数对该字符串长度序列执行加权时,获得了下面的评价值序列:
{80,48,16,6,3}
已被映射单元108从该评价值序列映射了令牌点的坐标平面在图5中示出。图5中所示的坐标平面包括五个令牌。与令牌“TVKid”相对应的令牌点21的坐标是(1,80)。与令牌“Weekly”相对应的令牌点22的坐标是(2,48)。与令牌“Gift”相对应的令牌点23的坐标是(3,16)。与令牌“for”相对应的令牌点24的坐标是(4,6)。与令牌“Jim”相对应的令牌点25的坐标是(5,3)。
在这种情况下,标准点252的坐标是(3,41),并且标准线202是由表达式y=x+38示出的线。这里,以与上述相同的方式判断各个令牌点是否符合提取标准,并且令牌点21和22被提取出来。结果,系列标识符被给定为“TVKidWeekly”。
接下来,将描述对于标题获取单元102已获取了“Cartoon-Clockwork Samurai-What’s for Lunch?”作为标题字符串的情况的系列标识符提取的示例。当标题分析单元104分析标题字符串“Cartoon-Clockwork Samurai-What’s for Lunch?”时,该标题字符串被划分为下面示出的多个令牌:
“Cartoon/Clockwork/Samurai/What’s/for/Lunch”
由评价值计算单元106基于该令牌的字符串长度计算出的字符串长度序列如下:
{7,9,7,5,3,5}
在评价值计算单元106已执行了噪声去除处理之后,从上面给出的字符串长度序列获得了下面的字符串长度序列:
{7,9,7,5,3,5}
当评价值计算单元106利用加权系数对该字符串长度序列执行加权时,获得了下面的评价值序列:
{224,144,56,20,6,5}
已被映射单元108从该评价值序列映射了令牌点的坐标平面在图6中示出。图6中所示的坐标平面包括六个令牌。与令牌“Cartoon”相对应的令牌点31的坐标是(1,224)。与令牌“Clockwork”相对应的令牌点32的坐标是(2,144)。与令牌“Samurai”相对应的令牌点33的坐标是(3,56)。与令牌“What’s”相对应的令牌点34的坐标是(4,20)。与令牌“for”相对应的令牌点35的坐标是(5,6)。与令牌“Lunch”相对应的令牌点36的坐标是(6,5)。
在这种情况下,标准点253的坐标是(3,114),并且标准线203是由表达式y=x+111示出的线。这里,以与上述相同的方式判断各个令牌点是否符合提取标准,并且令牌点31和32被提取出来。结果,系列标识符被给定为“CartoonClockwork”。
接下来,将描述当标题获取单元102已获取了“The MacGvyer(2)Golden Triangle”作为标题字符串时的系列标识符提取的示例。如果标题分析单元104分析标题字符串“The MacGvyer(2)Golden Triangle”,则该标题字符串被划分为下面示出的多个令牌:
“The/MacGvyer/2/Golden/Triangle”
由评价值计算单元106基于该令牌的字符串长度计算出的字符串长度序列如下:
{3,8,1,6,8}
当评价值计算单元106执行噪声降低处理时,从上述字符串长度序列获得了下面的字符串长度序列:
{3,8,6,8}
当评价值计算单元106利用加权系数对该字符串长度序列执行加权时,获得了下面的评价值序列:
{24,32,12,8}
映射单元108已从该评价值序列将令牌点映射到坐标平面上的坐标平面在图7中示出。图7中所示的坐标平面包括四个令牌。与令牌“The”相对应的令牌点41的坐标是(1,24)。与令牌“MacGvyer”相对应的令牌点42的坐标是(2,32)。与令牌“Golden”相对应的令牌点43的坐标是(3,12)。与令牌“Triangle”相对应的令牌点44的坐标是(4,8)。
这里,标准点254的坐标是(2,20),并且标准线204是由表达式y=x+18示出的线。这里,以与上述相同的方式判断各个令牌点是否符合提取标准,并且令牌点41和42被提取出来。结果,系列标识符被给定为“TheMacGvyer”。
接下来,将描述当标题获取单元102获取“The MacGvyer(2)GoldenTriangle”作为标题字符串并且3度分析被用作分析方法时的系列标识符提取的示例。当标题分析单元104利用3度分析分析标题字符串“TheMacGvyer(2)Golden Triangle”时,该标题字符串被划分为下面示出的多个令牌:
“The/heM/eMa/Mac/acG/cGv/Gvy/vye/yer”
由评价值计算单元106基于该令牌的字符串长度计算出的字符串长度序列如下:
{3,3,3,3,3,3,3,3,3,1}
当评价值计算单元106执行噪声降低处理时,从上述字符串长度序列获得了下面的字符串长度序列:
{3,3,3,3,3,3,3,3,3}
当评价值计算单元106利用加权系数对该字符串长度序列执行加权时,获得了下面的评价值序列:
{768,384,192,96,48,24,12,6,3}
映射单元108已从该评价值序列映射了令牌点的坐标平面在图8中示出。图8中所示的坐标平面包括九个令牌点。与令牌“The”相对应的令牌点51的坐标是(1,768)。与令牌“heM”相对应的令牌点52的坐标是(2,384)。与令牌“eMa”相对应的令牌点53的坐标是(3,192)。与令牌“Mac”相对应的令牌点54的坐标是(4,96)。与令牌“acG”相对应的令牌点55的坐标是(5,48)。与令牌“cGv”相对应的令牌点56的坐标是(6,24)。与令牌“Gvy”相对应的令牌点57的坐标是(7,12)。与令牌“vye”相对应的令牌点58的坐标是(8,6)。与令牌“yer”相对应的令牌点59的坐标是(9,3)。
这里,标准点255的坐标是(4,385),并且标准线205是由表达式y=x+381示出的线。这里,以与上述相同的方式判断各个令牌点是否符合提取标准,并且令牌点51和52被提取出来。结果,系列标识符被给定为“TheheM”。
4.示例性效果
如上所述,根据本发明一个实施例的信息处理设备100,可以从节目的标题字符串提取用于标识系列的系列标识符或其他内容。这里,通过分析节目的标题字符串或其他内容,标题字符串被划分为多个令牌。之后,针对每个令牌基于字符串长度和令牌的序数计算评价值,并基于评价值决定要提取作为系列标识符的一部分的令牌。通过结合所提取的令牌,生成了系列标识符。即,令牌的字符串长度越长,评价值就越大,并且令牌离标题字符串的开头越近,评价值就越大。这意味着令牌的字符串长度越长并且令牌的位置离开头越近,该令牌将用作系列标识符的可能性就越大。由于在许多情况下,系列名被插入在靠近标题字符串的开头的位置处,因此存在更容易提取表达系列的字符串的效果。此时,由于不需要诸如辞典之类的先验知识来提取系列标识符,因此存在以下效果:当本发明被应用于不同语言时,没有必要考虑先验知识的更新并且没有必要准备新的先验知识。
另外,通过使用将结果反馈到用作提取标准的标准线的梯度值α中的配置,可以自动将提取标准调节到适当的数值。尽管这些值可能依据语言而不同,但是可以通过简单地调节该数值来应对新的语言,这在以下方面是优选的:没有必要准备先验知识或者像过去那样针对每种语言自身提供节目。
注意,在上述实施例中描述的信息处理设备100的各个单元的功能实际上是通过诸如CPU(中央处理单元)之类的计算设备(未示出)实现的,该计算设备读取控制程序并且解释并执行控制程序,在控制程序中,用于实现各种功能的处理过程被从存储控制程序的诸如ROM(只读存储器)或RAM(随机访问存储器)之类的存储介质写入。例如,在根据上述实施例的信息处理设备100中,标题获取单元102、标题分析单元104、评价值计算单元106、映射单元108、提取标准决定单元110、提取单元112、标识符生成单元114和反馈控制单元118的相应功能实际上是通过执行程序的CPU实现的,在程序中写入了用于实现这些功能的处理过程。
尽管已参考附图详细描述了本发明的优选实施例,但是本发明并不限于上述示例。本领域技术人员应当理解,可以根据设计要求和其它因素进行各种修改、组合、子组合和变更,只要它们在权利要求或其等同物的范围之内。
另外,尽管在上述实施例中反馈控制单元向标准线的梯度值加上指定调节值或者从标准线的梯度值中减去指定调节值,但是本发明并不限于该示例。例如,反馈控制单元可以通过将标准线的梯度值乘以指定调节值或者通过将标准线的梯度值除以指定调节值来调节标准线的梯度值。
另外,尽管在上述实施例中反馈控制单元基于成功/失败信息在成功值超过成功阈值或者在失败值超过失败阈值的情况下调节标准线的梯度值,但是本发明并不限于该示例。例如,反馈控制单元可以在成功/失败信息表明提取已连续成功达某一次数或更多或者成功/失败信息表明提取已连续失败达某一次数或更多的情况下调节标准线的梯度值。
注意,在本说明书中,在流程图中写入的步骤当然可以根据所述顺序按时序处理,但是可以不一定按时序处理,并且可以分开或者以并行方式处理。显然,在步骤以时序处理的情况下,步骤的顺序可以根据情形适当地改变。
本申请包含与2010年2月5日向日本专利局提交的日本优先专利申请JP 2010-024585中公开的内容有关的主题,该申请的全部内容通过引用结合于此。

Claims (14)

1.一种信息处理设备,包括:
标题获取单元,所述标题获取单元获取示出内容的标题的标题字符串;
标题分析单元,所述标题分析单元分析由所述标题获取单元获取的标题字符串并将所述标题字符串划分为多个令牌;
评价值计算单元,所述评价值计算单元针对所述多个令牌中的每一个计算评价值,所述评价值是基于令牌的字符串长度的、并且根据所述标题字符串中令牌的位置被加权;
映射单元,所述映射单元针对所述多个令牌中的每一个将其位置由序数的值和所述评价值示出的令牌点映射到坐标平面上,所述序数示出所述标题字符串中令牌的位置;
提取标准决定单元,所述提取标准决定单元基于被所述映射单元映射到所述坐标平面上的所述令牌点的坐标,来决定用作用于从所述标题中提取标识系列的标识符的标准的标准点的坐标和基于所述标准点的提取标准;
提取单元,所述提取单元提取所述令牌点中、符合所述提取标准的令牌点;以及
标识符生成单元,所述标识符生成单元根据与所述提取单元提取的令牌点相关联的令牌中包括的字符串生成所述标识符。
2.如权利要求1所述的信息处理设备,
其中所述提取标准决定单元基于标准线和所述令牌点的坐标之间的位置关系来决定所述提取标准,所述标准线在所述坐标平面上穿过所述标准点并且具有指定梯度。
3.如权利要求2所述的信息处理设备,
其中所述评价值计算单元利用加权系数对每个评价值加权,令牌的序数越低,所述加权系数的值就越高,并且
所述提取标准决定单元决定所述提取标准,以便提取其评价值与所述标准线上的点相比较大的令牌点。
4.如权利要求1所述的信息处理设备,
其中所述提取单元输出表明符合所述提取标准的令牌点的提取是否成功的成功/失败信息,并且
所述信息处理设备还包括反馈控制单元,所述反馈控制单元基于从所述提取单元接收的成功/失败信息来调节所述标准线的梯度值。
5.如权利要求4所述的信息处理设备,
其中所述提取单元能操作来在匹配所述提取标准的令牌点的数目低于指定的成功/失败判断值时判断出所述令牌点的提取失败。
6.如权利要求4所述的信息处理设备,
其中所述反馈控制单元通过向所述标准线的梯度值加上指定调节值或从所述标准线的梯度值减去指定调节值来调节所述标准线的梯度值。
7.如权利要求4所述的信息处理设备,
其中所述反馈控制单元通过将所述标准线的梯度值乘以指定调节值或将所述标准线的梯度值除以指定调节值来调节所述标准线的梯度值。
8.如权利要求4所述的信息处理设备,
其中所述反馈控制单元根据从所述提取单元接收的成功/失败信息表明提取成功的次数和所述成功/失败信息表明提取失败的次数分别增大和减小成功值和失败值,并且能操作来在所述成功值超过指定成功阈值时或者当所述失败值超过指定失败阈值时调节所述标准线的梯度值。
9.如权利要求4所述的信息处理设备,
其中所述反馈控制单元能操作来在从所述提取单元接收的成功/失败信息表明提取已连续成功达至少某一次数或更多时或者当所述成功/失败信息表明提取已连续失败达至少某一次数时,调节所述标准线的梯度值。
10.如权利要求4所述的信息处理设备,
其中所述反馈控制单元能操作来在调节导致所述标准线的梯度值超过指定梯度范围时,将所述标准线的梯度值设置为指定初始值。
11.如权利要求1所述的信息处理设备,
其中所述评价值计算单元能操作来在一令牌的字符串长度短于指定的最小字符串长度时,忽略所述评价值的计算并从提取中排除该令牌。
12.如权利要求1所述的信息处理设备,
其中所述标题分析单元能操作来在作为分析结果生成的令牌的数目低于指定的最小令牌数目时,将所生成的令牌输出到所述标识符生成单元,并且
所述标识符生成单元通过组合从所述标题分析单元输入的令牌来生成所述标识符。
13.一种信息处理方法,包括以下步骤:
获取示出内容的标题的标题字符串;
分析所获取的标题字符串并将所述标题字符串划分为多个令牌;
针对所述多个令牌中的每一个计算评价值,所述评价值是基于令牌的字符串长度的、并且根据所述标题字符串中令牌的位置被加权;
针对所述多个令牌中的每一个将其位置由序数的值和所述评价值示出的令牌点映射到坐标平面上,所述序数示出所述标题字符串中令牌的位置;
基于被映射到坐标平面上的令牌点的坐标,来决定用作用于从所述标题中提取标识系列的标识符的标准的标准点的坐标和基于所述标准点的提取标准;
提取所述令牌点中、符合所述提取标准的令牌点;以及
由与所提取的令牌点相关联的令牌中包括的字符串生成所述标识符。
14.一种程序,用于使得计算机执行以下处理:
获取示出内容的标题的标题字符串;
分析所获取的标题字符串并将所述标题字符串划分为多个令牌;
针对所述多个令牌中的每一个计算评价值,所述评价值是基于令牌的字符串长度的并且根据所述标题字符串中令牌的位置被加权;
针对所述多个令牌中的每一个将其位置由序数的值和所述评价值示出的令牌点映射到坐标平面上,所述序数示出所述标题字符串中令牌的位置;
基于被映射到坐标平面上的令牌点的坐标,来决定用作用于从所述标题中提取标识系列的标识符的标准的标准点的坐标和基于所述标准点的提取标准;
提取所述令牌点中、符合所述提取标准的令牌点;以及
由与所提取的令牌点相关联的令牌中包括的字符串生成所述标识符。
CN2011100332840A 2010-02-05 2011-01-28 信息处理设备、信息处理方法和程序 Pending CN102147805A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-024585 2010-02-05
JP2010024585A JP2011164779A (ja) 2010-02-05 2010-02-05 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
CN102147805A true CN102147805A (zh) 2011-08-10

Family

ID=44354396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100332840A Pending CN102147805A (zh) 2010-02-05 2011-01-28 信息处理设备、信息处理方法和程序

Country Status (3)

Country Link
US (1) US8700386B2 (zh)
JP (1) JP2011164779A (zh)
CN (1) CN102147805A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055348A1 (en) * 2014-07-27 2016-02-25 Jerzy Jozef Lewak Double key coding methods of providing fast search, analysis, and data retrieval of encrypted data without decryption
US10367913B2 (en) * 2014-12-29 2019-07-30 DISH Technologies L.L.C. Systems and methods for tracking user behavior using closed caption text
JP6680666B2 (ja) * 2016-11-24 2020-04-15 ヤフー株式会社 情報解析装置、情報解析システム、情報解析方法、および情報解析プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1736097A (zh) * 2002-12-12 2006-02-15 索尼株式会社 信息处理设备,信息处理方法,信息处理系统,记录介质和计算机程序
CN101197929A (zh) * 2006-12-08 2008-06-11 索尼株式会社 信息处理装置、显示控制处理方法、及显示控制处理程序
CN101339564A (zh) * 2007-07-02 2009-01-07 索尼株式会社 信息处理设备以及用于搜索内容的评价的方法和系统
US20090073314A1 (en) * 2007-09-18 2009-03-19 Kddi Corporation Summary Content Generation Device and Computer Program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002027416A (ja) 2000-07-07 2002-01-25 Sharp Corp 番組予約装置
JP4924866B2 (ja) 2006-01-31 2012-04-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1736097A (zh) * 2002-12-12 2006-02-15 索尼株式会社 信息处理设备,信息处理方法,信息处理系统,记录介质和计算机程序
CN101197929A (zh) * 2006-12-08 2008-06-11 索尼株式会社 信息处理装置、显示控制处理方法、及显示控制处理程序
CN101339564A (zh) * 2007-07-02 2009-01-07 索尼株式会社 信息处理设备以及用于搜索内容的评价的方法和系统
US20090073314A1 (en) * 2007-09-18 2009-03-19 Kddi Corporation Summary Content Generation Device and Computer Program

Also Published As

Publication number Publication date
JP2011164779A (ja) 2011-08-25
US20110196669A1 (en) 2011-08-11
US8700386B2 (en) 2014-04-15

Similar Documents

Publication Publication Date Title
US7246306B2 (en) Web information presentation structure for web page authoring
CN101464905B (zh) 一种网页信息抽取的系统及方法
CN101833554B (zh) 产生抽取模板的方法、设备和抽取网页内容的方法和设备
US7707488B2 (en) Analyzing lines to detect tables in documents
WO2004083989A2 (en) Web server for adapted web content
US20060282444A1 (en) Small Form Factor Web Browsing
US20100198827A1 (en) Method for finding text reading order in a document
US9710440B2 (en) Presenting fixed format documents in reflowed format
CN107423061A (zh) 一种基于ison数据的表单生成方法
CN103019925B (zh) JQuery选择器获取方法及装置
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
EP1681644B1 (en) Method and system to identify records that relate to a predefined context in a data set
CN111325205B (zh) 文档图像方向识别方法、装置及模型的训练方法、装置
CN109492199A (zh) 一种基于ocr预判断的pdf文件转换方法
CA2517189A1 (en) Web content adaption process and system
Chang et al. Using and exploring hierarchical data in spreadsheets
CN103473348A (zh) 网页浏览器导航方法、网页浏览器导航装置和电视机
CN102147805A (zh) 信息处理设备、信息处理方法和程序
JP2007052556A (ja) 複数のxml文書の類似度検出方法および類似性検出システム、ならびに複数のxml文書の統合方法
CN104462532A (zh) 网页正文提取的方法和装置
CN108664471A (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN112668316A (zh) word文档关键信息抽取方法
JP4523952B2 (ja) オンライン上で提供されるニュース記事に加重値を付与する方法及びそのシステム
CN110909768B (zh) 一种标注数据获取方法及装置
US20090161916A1 (en) Map-based aesthetic evaluation of document layouts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110810