CN104169912A - 信息处理终端和方法,以及信息管理设备和方法 - Google Patents
信息处理终端和方法,以及信息管理设备和方法 Download PDFInfo
- Publication number
- CN104169912A CN104169912A CN201380005184.4A CN201380005184A CN104169912A CN 104169912 A CN104169912 A CN 104169912A CN 201380005184 A CN201380005184 A CN 201380005184A CN 104169912 A CN104169912 A CN 104169912A
- Authority
- CN
- China
- Prior art keywords
- information
- item
- metadata
- electronic document
- annotating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
根据一个实施例,信息处理终端包括生成器、获取单元、和输出单元。生成器分析电子文档以生成包括该电子文档中的文本信息和关于该电子文档的结构信息的元数据项。获取单元将该元数据项传送至信息管理设备,使得信息管理设备估算类似于该元数据项的相似元数据项并获取对应于该相似元数据项的注解信息项。输出单元输出与电子文档相关的注解信息项。
Description
相关申请的交叉引用
此申请基于2012年3月27日提交的2012-072517号日本专利申请并要求其优先权的利益,其全部内容通过引用被合并到本文中。
技术领域
在这里描述的实施例涉及信息处理终端和方法,以及信息管理设备和方法。
背景技术
有用于管理通过网络可访问的内容站点以搜索内容信息的信息管理设备,例如活动图像或电子词典。这些设备包括其中由多个用户加到特定的内容的注解信息在用户之间被共享的设备。
为在内容站点上使对于内容的注解信息能够在用户之间共享,信息管理设备必须在数据库中存储互相相关的内容和注解信息。
然而,因为使得内容项对应于各个注解信息项,所以存在互相相关的多个内容项(例如,不同版本的相同内容项或者由不同的发表者发表的那些)存在于数据库的情况。在这种情况下,注解信息可能不能够在相关的内容项之间共享。此外,当用户在他们各自的本地环境中以不同的格式或形式从版权中独立地存放文档数据时,难以共享注解信息,因为数据库和文件系统是分散的。
从而,在传统的信息管理设备中,用户想要知道的内容信息,和与之相关的注解信息,不能适当地被搜索。
附图说明
图1是图解根据第一实施例的信息处理终端1和2的方框图;
图2A和2B是图解由信息处理终端1和2进行的处理的流程图;
图3是图解由并入信息处理终端1的生成器11进行的处理的流程图;
图4是对解释结构信息有用的视图;
图5是图解元数据的实例的视图;
图6是图解由并入信息处理终端1的获取单元12进行的处理的流程图;
图7是图解对应信息的实例的视图;
图8是对解释注解信息有用的视图;
图9是图解由在第三实施例中采用的判断单元110进行的处理的流程图;
图10是图解在存储器23中存储的元数据和注解信息的实例的视图;
图11是用于获取类似的元数据的流程图;
图12是图解类似的元数据的实例的视图;
图13是图解在由提取单元22提取注解信息之后进行的处理的流程图;
图14A和14B是图解注解信息的显示实例的视图;以及
图15是图解根据第二实施例的信息处理终端10和信息管理设备2的方框图。
具体实施方式
所述实施例的目的是提供一种信息处理终端和方法,以及一种信息管理设备和方法,其使用户能够适当地搜索该用户想要知道的内容信息。
根据一个实施例,信息处理终端被允许被连接到用于管理电子文档上的元数据项和对应于元数据项的注解信息项的信息管理设备,该终端包括生成器,获取单元,和输出单元。生成器分析电子文档以生成包括该电子文档中的文本信息和关于该电子文档的结构信息的元数据项。获取单元将该元数据项传送至信息管理设备,令信息管理设备估算类似于该元数据项的相似元数据项并获取对应于该相似元数据项的注解信息项。输出单元输出与电子文档相关的注解信息项。
(第一实施例)
根据第一实施例的信息处理终端1适合作为能够处理与电子文档相关的资源(文件或应用)的信息终端(例如,PC,智能电话,网络书籍等等)。根据第一实施例的信息管理设备2适合作为可连接至信息处理终端1的服务器。与电子文档相关的资源是,例如,电子图书。
信息处理终端1分析作为处理目标的电子文档(以下称为“目标文档”),生成包括与目标文档相关的文本数据和结构信息的元数据(目标元数据),并将目标元数据传送至信息管理设备2。
文本数据包括电子文档中的文本本身,和通过混编文本获得的信息。结构信息与在电子文档中的文档的逻辑结构和/或布局相关。例如,结构信息包括在电子文档的每行中包含的缩进数,文本数据项、符号、数字、文本集的数目,和字符类型,字体大小,逻辑要素(例如标题,索引和正文文本),布局信息等等。缩进数对应于在行的首位部分和该行中的文本数据的首位部分之间存在的空格符的数目。文本集指示不包括空格符的连续部分的文本数据。
信息管理设备2存储与电子文档相关的元数据,和与该元数据相关的注解信息,元数据和注解信息被互相相关地存储。注解信息是附加至包含在电子文档中的文本数据的信息。例如,注解信息包括由未指定的用户的信息处理终端附加于电子文档中的文本数据的注释,或者与由用户在他们大声读出电子文档中的文本的时候生成的语音相关的音频信息。注解信息不局限于以上,并且如果它与电子文档有关,则可以是任何类型的信息。
信息管理设备2搜索类似于从信息处理终端1接收的目标元数据的相似元数据,并且对信息处理终端1提供相应于相似元数据的注解信息。
信息处理终端1输出从信息管理设备接收的与目标文档相关的注解信息。结果,用户能够适当地搜索他们想要知道的内容信息。
图1是图解信息处理终端1和信息管理设备2的方框图。如所示,信息处理终端1包含生成器11,获取单元12,存储器13和输出单元14。
生成器11获取目标文档,并生成包含与目标文档相关的结构信息的元数据(目标元数据)。例如,生成器11可以获取存储在信息处理终端1中的电子文档,或由用户下载的电子文档,作为目标文档。
获取单元12生成用于使信息管理设备2能够估算类似于目标元数据的相似元数据的搜索询问,并且将该搜索询问传送至信息管理设备2。在这时候,获取单元12可以在存储器13中把目标文档和目标元数据标出以使它们互相关联。获取单元12从信息管理设备2获取对应于由信息管理设备2估算的相似元数据的注解信息。
输出单元14输出与目标文档相关的被获取的注解信息。
生成器11和获取单元12可以通过CPU(中央处理单元)和由CPU使用的存储器被实现。存储器13可以通过由CPU使用的内存或辅助存储器被实现。输出单元14可以由诸如液晶显示器或有机EL显示器的显示单元(未显示),或者由诸如扬声器的语音输出单元(未显示)被实现。
信息管理设备2包含接收器21,提取单元22,存储器23和传送器24。
接收器21从信息处理终端1的获取单元12接收搜索询问,并向提取单元22提供被接收到的搜索询问。
存储器23存储互相相关的电子文档上的元数据和元数据上的注解信息。例如,存储器23可以使用由未指定的用户添加的对某一电子文档中的文本数据的注释作为注解信息,并且存储与该电子文档的元数据相关的注解信息。
提取单元22基于所提供的搜索询问搜索存储器23,从而估算对应于目标元数据的相似元数据。提取单元22从存储器23提取对应于所估算的相似元数据的注解信息,并且向传送器24提供被提取出来的注解信息。
传送器24将所提供的注解信息传送至信息处理终端1的获取单元12。
接收器21、提取单元22和传送器24可以通过CPU和由CPU使用的存储器被实现。存储器23可以通过由CPU使用的内存或辅助存储装置实被现。
信息处理终端1和信息管理设备2是如以上所述被构造的。
图2A和2B分别是图解信息处理终端1和信息管理设备2的处理的流程图。
首先参考图2A,将描述由信息处理终端1进行的处理。
生成器11生成目标文档并生成目标元数据(S101)。获取单元12生成用于使信息管理设备2能够估算类似于目标元数据的相似元数据的搜索询问(S102)。获取单元12将被生成的搜索询问传送至信息管理设备2(S103)。获取单元12从信息管理设备2获取对应于由信息管理设备2估算的相似元数据的注解信息(S104)。输出单元14输出被获取的与目标文档相关的注解信息(S105),这是此程序的终止。
然后参考图2B,将描述由信息管理设备2进行的处理。由信息管理设备2进行的处理是在由信息处理终端1进行的处理的步骤S103和S104之间进行的。
接收器21从信息处理终端1的获取单元12接收搜索询问(S201)。按照该搜索询问,提取单元22在存储器23中搜索对应于目标元数据的相似元数据(S202),并从存储器23提取对应于被估算的相似元数据的注解信息(S203)。传送器24将注解信息传送至信息处理终端1的获取单元12(S204),这是此程序的终止。
图3是图解由并入信息处理终端1的生成器11进行的处理的流程图。生成器11使被获取的电子文档经过形态分析以将文档中的文本数据划分为单词(S301)。生成器11在通过划分步骤被获得的单词中检测高出现频率的单词(S302)。例如,生成器11可以获取出现频率顺序高于预定顺序的单词。生成器11还将关于高出现频率顺序的单词的信息存储为文本信息。
生成器11分析被获取的电子文档以获得关于其的结构信息(S303)。图4是对解释结构信息有用的视图。如图4所示,在该实施例中所采用的结构信息与电子文档的每行中的文本数据的结构相关,并且包括缩进数,字符、符号、数字、和文本集的数目,字体大小,逻辑要素,布局信息等等。
将对图4中显示的电子文档“SKAZKA O IVANE-DURAKE”的第一行的结构信息给出说明。在第一行,如果在该行的第一部分和文本数据“Ivan the Fool”的首字符“I”之间存在的空格符的数目是4,则缩进数是4。在“Ivan the Fool”中包括的字符数目是11。在“Ivan the Fool”中包括的符号数目是0。在“Ivan the Fool”中包括的数字数目是0。在“Ivan the Fool”中包括的文本集的数目是3。在“Ivan the Fool”中包括的字符类型数目是1。文本数据“Ivan the Fool”的字体大小是20。“Ivan the Fool”的逻辑要素是“标题”。
布局信息通过用“1”代表文本数据至少在每四个字符的组中存在所在的位置,并且用“0”代表文本数据不存在在每四个字符的组中所在的位置,来指示在该行的文本数据的布局。从而,在图4中显示的电子文档的第一行处的布局信息能够用,例如,“0111100000000000000”来表示。对于第二和第三行,布局信息能够用例如图4中所示的这种结构信息来表示。对其它行来说也是如此。
生成器11通过构造文本信息和结构信息来生成目标元数据(S304)。图5显示元数据的实例。如图5所示,该实施例的目标元数据包括用于识别目标元数据的元数据ID(<metadata id>),并且该实施例的目标元数据是通过构造文本信息和结构信息被获得的。分配给图5的目标元数据的元数据ID是“123”。
例如,生成器11把“Tolstoi”标为<creator>要素,把“Ivan the Fool”标为<title>要素,并且把“xxx”标为<translator>要素,如在图5中显示的。在这时候,生成器11把这些要素标为对应于目标文档的标识ID(<description id>)的内容。图5中显示的目标文档的标识ID是“456”。生成器11可以在对应于目标文档的标识ID(<description id>)的内容中包括对于目标文档的电子文档URL(统一资源定位器)。图5中显示的目标文档的电子文档URL是:
“http://www.toshiba.co.jp/ebook/#1298129sw”
生成器11把在步骤S303获得的图4中显示的结构信息标为<layout-pattern>要素。生成器11还把在步骤S302获得的文本出现频率标为<text-info>要素。在图5情况中,作为经常出现的单词或词组的实例的“old devil”,“straw”,“table”和“Ivan”的各自的出现频率分别是“35”,“20”,“10”和“5”。生成器11向获取单元12提供目标文档和被生成的目标元数据。生成器11还把对应于目标元数据的用于识别目标文档的电子文档ID,和目标文档的URL标为结构信息。在图5中显示的指示目标文档的电子文档ID是“100”。
虽然在以上实例中,为了便于说明,在每行的文本数据的内容被写为文本要素的一个行,但是举例来说布局信息可以被写为混编的信息。更进一步,元数据可以包括能够作为书目信息,以及结构信息被提取的要素。例如,除如在图5中的实例显示的创作者,标题和翻译者之外,出版者名字,出版年份,月份和日期,卷次编号,等等,可以包括在元数据中。
图6是图解由获取单元12进行的处理的流程图。获取单元12在存储器13中写入使提供的目标文档能够与目标元数据相联系的对应信息(S401)。获取单元12生成用于使信息管理设备2能够估算类似于目标元数据的相似元数据的搜索询问,并且将该搜索询问传送至信息管理设备2(S402)。获取单元12从信息管理设备2获取对应于相似元数据的注解信息(S403)。随后将详细地描述在信息管理设备2中估算相似元数据的方法。
现在将对对应信息给出说明。图7显示对应信息的实例。如图7所示,对应信息使在图5中显示的每个电子文档的元数据的元数据ID、每个电子文档的电子文档ID、每个电子文档的URL、以及元数据的URL互相相关。如果元数据的内容本身,或对应于元数据内容的链接(路径)在元数据栏中被标出就足够了。
将详细地描述信息管理设备2。信息管理设备2的存储器23存储互相关联的元数据和关于每个电子文档的注解信息。图8是对解释注解信息有用的视图。举例来说,在图8中显示的注解信息是对包含在用户正在经由他的信息处理终端浏览的电子文档中、并且由该用户指定的文本数据的用户注释。换句话说,注解信息可能是关于文本数据的音频信息(发音或音调)。
图8显示其中某个用户已经对在电子文档“Ivan the Fool”中包含的文本数据“threesons--Simeon(a soldier),Tarras-Briukhan(a fat man),and Ivan(a fool)--”写了注释“This expression is...”的情况。进一步地,关于指定的文本数据“threesons--Simeon(a soldier),Tarras-Briukhan(a fat man),and Ivan(a fool)--”的音频信息包括这个句子的发音、以及与该句子相关的音调的位置。即,在这个实例中的注解信息包含注释“This expression is...”和音频信息。
图9显示在存储器23中存储的注解信息的实例。例如,可以用XML格式标出注解信息。在显示的实例中,注释和音频信息被标为<annotation-info>要素中的注解信息。
存储器23存储用于识别注解信息的注解信息ID、被分配给对应于该注解信息的电子文档的电子文档ID(<refid>)、指示该注解信息对应于电子文档的哪个部分的索引位置或长度信息等等。
最好是诸如GUID的可唯一限定的ID被事先指定为电子文档ID。如果电子文档是可直接访问的,则能够使用以上所述的ID来提取电子文档的对应于注解信息的部分。
图9的上部显示注解信息是用户注释的情况。在这种情况下,由某个用户作出的注释被标为<commentary>要素。图9的下部显示注解信息是音频信息的情况。音频信息以文本格式被标为<midterm>要素。
图10显示在存储器23中存储的元数据和注解信息的实例。存储器23使用元数据ID、注解信息ID、和注解信息存储互相相关的元数据和注解信息。
将描述信息管理设备2的提取单元22。当估算对应于从接收器21被提供的目标元数据的相似元数据时,提取单元22基于文本信息计算第一相似度、基于结构信息计算第二相似度、并基于文本信息和结构信息计算第三相似度。提取单元22基于第一到第三相似度从存储器23提取出相似元数据。
图11是图解由提取单元22进行的处理的流程图。提取单元22计算第一相似度(S501)。第一相似度指示与文本信息相关的相似度。例如,提取单元22可以基于目标元数据和被存储在存储器23中的元数据之间的高出现频率的单词或字符的N元组(n-gram)的匹配度、或基于出现的文本序列之间的模式的匹配度来计算第一相似度。
更具体地说,举例来说,第一相似度是通过测量目标元数据和被存储在存储器23中的元数据之间的字符或单词的出现频率的差值、或者计算较前和较后的元数据项中的关键字序列之间的编辑距离(Loewenstein距离)从而计算关键字序列之间的相似度来获得的。
提取单元22计算第二相似度(S502)。第二相似度指示作为树形结构之间的相似度,其中,结构信息中的逻辑要素的层次以该树形结构的形式被表达。
更具体地说,举例来说,第二相似度能够通过计算树形结构数据项之间的编辑距离来获得。
当计算第二相似度时,提取单元22可以根据逻辑要素的类型来改变对于对应于每个逻辑要素的每个结点的权重。例如,较重的权重可以被分配给对应于“章节”的结点,而较轻的权重可以被分配给对应于“参考文献”或“评论”的结点。
提取单元22计算第三相似度(S503)。第三相似度是作为结构信息和文本信息的组合的信息的相似度,诸如包括标题、创作者/翻译者、以及电子文档的出版日期的书目的事项。在这个实例中,书目的事项作为指示电子文档的信息被利用或被出版。
更具体地说,假定在目标元数据的要素<LayoutSim>中,被包括在目标元数据中的“标题”的字符串被编码为“path information:/document/root/chapter[title="chapter1"],”“text element:let's meet at Kawasaki station”。
另一方面,假定被存储在存储器23中的元数据项中的一个被编码为“pathinformation:/document/chapter/chapter_title,”“text element:let's meet atKawasaki station”。
在这种情况下,能够通过计算与路径信息相关的编辑距离的相似度、以及与文本要素相关的编辑距离的相似度,并计算被计算出来的度的总和来获得三个相似度。
通常,即使当电子文档在正文文字上是等同的时,它们在结构信息上也并不总是等同的。例如,存在以不同的题字(例如,以不同的字体)写相同的标题的情况、由不同的翻译者或以不同的翻译风格翻译相同的文本的情况、相同的文本具有不同的版本的情况、或者由不同的出版者出版相同的文本的情况。因此,对于每个应用确定相似度,凭借该相似度,电子文档被认为是相同的电子文档。
例如,存在一种情况,其中对于某个外国的文学作品应该与它的翻译者无关地提取注解信息,或者一种情况,其中如果该文学作品是由不同的翻译者翻译,则不应该提取注解信息。
以上所述的这种差异能够在步骤S504被反映为加权因数。这样,能够使用加权因数计算基于以上观点的相似度。
提取单元22为第一,第二和第三相似度分别设置权重因数α,β和γ,其用来搜索对应于被提供的目标元数据的相似元数据(S504)。存在用于设置权重因数的不同的方法。可以采用选择由,例如,系统管理员预置的因数的方法,或根据由目标元数据指示的电子文档的类型动态地设置因数的方法。还作为选择,可以使用被计算出来的相似度设置权重因数。提取单元22也可以改变相似度的计算顺序。即,提取单元22可以,例如,响应于与高优先级的项相关的被计算出来的相似度,忽略后续的处理。
基于这样被计算出来的第一,第二和第三相似度,提取单元22在存储器23中搜索相似元数据。例如,提取单元22使用以下等式(1)基于第一,第二和第三相似度和加权因数α,β和γ计算元数据的相似度,从而如果被计算出来的元数据相似度不低于预定阈值,则估算该元数据作为相似元数据:
相似度=αx第一相似度+βx第二相似度+γx第三相似度 (1)
在这里假定,例如,提取单元22已经估算了图12中显示的相似元数据。更具体地说,假定在图10中和在图12的上部中显示的元数据,以及对应于由另一个用户分配至不同的电子文档ID的电子文档的注解信息的元数据已经被估算作为相似元数据。
在这时候,提取单元22从存储器23提取对应于相似元数据的元数据ID的注解信息(S506)。在这个实例中,提取单元22提取图12中显示的两个注解信息项。对于对应于不同的元数据项的注解信息,必须确保注解信息和目标文档之间的匹配,因为不同的电子文档被搜索,并且由此即使当总体上确保匹配时,也可能对于细节丢失匹配。所以,所希望的是检测用于确保匹配的共享结构。
将更详细地描述提取注解信息的方法。图13是图解在由提取单元22提取注解信息之后进行的处理的流程图。
提取单元22提取对应于相似元数据的注解信息(S601),然后获取与注解信息的参照范围相关的信息(S602)。这个信息指示在图12的注解信息中显示的这种不同的属性。具体地说,属性包括指示从与对应于注解信息的文本数据相关的电子文档的开头起的第n个(n是自然数)字符的“index”,该第n个字符指示文本数据的开始位置,指示文本数据长度的“length”,指示文本数据所属的章节结构的“chapter”,指示子章节结构的“section”,指示段落结构的“para”,指示包括在参照范围中的具有更高的出现频率的文本数据项的顺序的信息等等。
对于与参照范围相关的以上信息,提取单元22以结构的递减次序进行关于目标元数据中的目标部分和相似元数据中的目标部分的匹配判断(S603)。
提取单元22判断目标部分是否互相匹配(S604)。因为当前的注解信息已经从元数据项之间的相似的匹配中得到,所以假定匹配是基于作为最大的单元的结构单元被检测的。进一步地,在这里假定在结构中建立“chapter>section>para>freqterm>index”的递减次序,并且提取单元22以这个顺序作出匹配的判断。
如果判断匹配被检测(在步骤S604的是),则对于更小的结构单元进行关于匹配的判断(S605),并且处理转到步骤S603。相反,如果匹配没有被检测(在步骤S604的否),则处理转到步骤S606。在图12的实例中,很清楚,当与“index”的结构单元相联系地进行比较时,将出现差值。从而,提取单元22进行在其中以“#4”检定匹配的“freqterm”的结构单元中注解信息的对应,并且将该注解信息发送至传送器24(S606)。传送器24将提供的注解信息发送至信息处理终端1的获取单元12。
信息处理终端1的输出单元14输出被获取的与目标文档相关的注解信息。图14A和14B是图解由输出单元14输出至信息处理终端1的显示屏幕的注解信息的显示实例的视图。如在图14A中显示的,输出单元14可以利用指定目标范围的弹出功能显示注解信息,可以将它插入在后续的文档中,或者可以将它显示在具有被动态地给予它的引用符(例如,依赖注入代码(dagger code))的另一个区域中。进一步地,输出单元14可以不同时地显示注释,但是可以通过,例如,高亮度显示对应的区域,并在用户请求它们的显示的时候显示注释,来通知用户存在对目标文档的评论。相反,如果匹配即使在详细的区域中也没有被检测,则可以与浏览的页面相关地以栏的形式显示注解信息,如在图14B中显示的。进一步地,当显示包括脚注区域的目标区域时,可以在该脚注区域中显示注解信息。
在第一实施例中,能够使得之前与相似内容项相关或者之前是源自相似内容项的产物但是因为不能使得它们互相对应而之前被分散了的注解信息项互相对应。这不但使由作为特定的服务提供者的书籍商准备的受限的文档内容被利用或参考,而且使在不同的网址上的相似信息或与由用户计算机化的内容项相关的注解信息能够被利用或参考。
(第二实施例)
根据第二实施例的信息处理终端10与第一实施例的终端的不同在于前者能够接受终端用户的注解信息输入,并且将输入的注解信息传送到信息管理设备2。
图15是图解信息处理终端10和信息管理设备2的方框图。除第一实施例的信息处理终端1的元件之外,信息处理终端10包含分析单元15。分析单元15在由终端的用户输入的电子文档上接受例如注释的注解信息。根据第二实施例的注解信息可以使用,例如,电子图书阅读器的插件程序功能或在电子文档浏览服务站点上的UI功能来输入。
分析单元15将输入的注解信息提供至获取单元12。获取单元12使得所提供的注解信息对应于目标元数据以便构造它,并且将它写在存储器12中。进一步地,将被使得互相对应的注解信息和目标元数据传送至信息管理设备2的接收器21。在信息管理设备2中,提取单元22将注解信息和目标元数据存储在存储器23中。
第二实施例的信息处理终端10能够从信息管理设备2获取与对应于目标元数据的相似元数据相关的注解信息,并且也能够将由终端10的用户输入的注解信息传送至信息管理设备2。
第二实施例的系统能够适当地搜索用户想要获取的内容信息。
以上描述的实施例的信息处理终端和信息管理设备还可以使用,例如,多用途计算机作为基本的硬件来实现。即,应该并入信息处理终端和信息管理设备的结构元件能够通过令计算机中的处理器执行程序被实现。在这时候,信息处理终端和信息管理设备可以通过事先在计算机中安装程序、或通过在例如CD-ROM的记录介质中存储程序、或通过经由网络下载程序至计算机被实现。还做为选择,能够通过适当地利用安装在计算机中或外部地附加于计算机的记录介质,例如存储器、硬盘、CD-R、CD-RW、DVD-RAM或DVDR来实现程序。
虽然已经描述了某些实施例,但是这些实施例仅仅已经经由例子被给出,而不意欲限制该发明的范围。实际上,在这里描述的新颖的设备,方法和计算机可读的介质可以用各种其它的形式体现;此外,可以在没有脱离本发明的精神的情况下作出在这里描述的设备、方法和计算机可读的介质的形式上的各种省略、替换和变化。伴随的权利要求书和它们的同等物是用来包括这样的形式或修改,其将落入该发明的范围和精神。
权利要求书(按照条约第19条的修改)
1.一种信息处理终端,所述信息处理终端被允许连接到用于管理电子文档上的元数据项和对应于所述元数据项的注解信息项的信息管理设备,所述电子文档上的所述注解信息项由用户生成,其特征在于,所述信息处理终端包含:
生成器,所述生成器被配置成分析电子文档以生成元数据项,所述元数据项包括所述电子文档中的文本信息和关于所述电子文档的结构信息;
获取单元,所述获取单元被配置成将所述元数据项传送至所述信息管理设备,以使得所述信息管理设备估算类似于所述元数据项的相似元数据项并获取对应于所述相似元数据项的某一注解信息项,所述某一注解信息项被包括在所述注解信息项中;以及
输出单元,所述输出单元被配置成输出与所述电子文档相关的所述注解信息项。
2.如权利要求1所述的终端,其特征在于,所述注解信息项是指示由所述用户添加至所述电子文档的注释的注释信息,或者是对应于所述电子文档的音频信息。
3.如权利要求2所述的终端,其特征在于,进一步包含被配置成分析由所述用户添加的所述注释信息的分析单元,并且其中所述获取单元将互相相关的所述注释信息和所述元数据项传送至所述信息管理设备。
4.如权利要求3所述的终端,其特征在于,所述输出单元按照所述元数据项和所述相似元数据项之间的相似度来修改所述注解信息项的输出形式。
5.一种信息管理设备,所述信息管理设备被允许从信息处理终端接收电子文档上的元数据项,其特征在于,所述信息管理设备包含:
存储器,所述存储器被配置成存储所述元数据项和对应于所述元数据项的注解信息项,所述元数据项包括关于所述电子文档的结构信息项和所述电子文档中的文本信息项,所述电子文档上的所述注解信息项由用户生成;
获取单元,所述获取单元被配置成从所述信息处理终端获取作为搜索目标的第一元数据项;
提取单元,所述提取单元被配置成在所述存储器中搜索类似于所述第一元数据项的相似元数据项,并且提取对应于所述相似元数据项的某一注解信息项,所述某一注解信息项被包括在所述注解信息项中;以及
传送器,所述传送器被配置成将被提取的注解信息项传送至所述信息处理终端。
6.如权利要求5所述的设备,其特征在于,如果被包括在所述第二元数据项中的文本信息和结构信息类似于被包括在所述第一元数据项中的所述文本信息和所述结构信息,则所述提取单元提取第二元数据项作为所述相似元数据项。
7.一种信息处理方法,所述信息处理方法用于控制信息处理终端,所述信息处理终端被允许连接到用于管理电子文档上的元数据项和对应于所述元数据项的注解信息项的信息管理设备,所述电子文档上的所述注解信息项由用户生成,其特征在于,所述信息处理方法包含:
分析电子文档以生成包括所述电子文档中的文本信息和关于所述电子文档的结构信息的元数据项;
将所述元数据项传送至所述信息管理设备;
使得所述信息管理设备估算类似于所述元数据项的相似元数据项;
获取对应于所述相似元数据项的某一注解信息项,所述某一注解信息项被包括在所述注解信息项中;以及
输出与所述电子文档相关的所述注解信息项。
8.如权利要求7所述的方法,其特征在于,所述注解信息项是指示由所述用户添加至所述电子文档的注释的注释信息,或者是对应于所述电子文档的音频信息。
9.如权利要求8所述的方法,其特征在于,进一步包含分析由所述用户添加的所述注释信息,并且其中所述传送所述元数据项将互相相关的所述注释信息和所述元数据项传送至所述信息管理设备。
10.如权利要求9所述的方法,其特征在于,所述输出所述注解信息项按照所述元数据项和所述相似元数据项之间的相似度来修改所述注解信息项的输出形式。
11.一种信息处理方法,所述信息处理方法用于被允许从信息处理终端接收电子文档上的元数据项的信息管理设备,其特征在于,所述信息处理方法包含:
从所述信息处理终端获取元数据项作为搜索目标;
搜索存储所述元数据项和对应于所述元数据项的注解信息项的存储器,以便检测类似于被获取的所述元数据项的相似元数据项,并提取对应于所述相似元数据项的某一注解信息项,所述元数据项包括关于所述电子文档的结构信息项和所述电子文档中的文本信息项,所述电子文档上的所述注解信息项由用户生成,所述某一注解信息项被包括在所述注解信息项中;以及
将被提取的注解信息项传送至所述信息处理终端。
12.如权利要求11所述的方法,其特征在于,如果被包括在所述第二元数据项中的文本信息和结构信息类似于被包括在所述第一元数据项中的所述文本信息和所述结构信息,则所述搜索所述存储器提取第二元数据项作为所述相似元数据项。
13.如权利要求5所述的设备,其特征在于,所述某一注解信息项是指示由所述用户添加至所述电子文档的注释的注释信息,或者是对应于所述电子文档的音频信息。
14.如权利要求1所述的终端,其特征在于,所述元数据项包括缩进数,字符、符号、数字和文本集的数目,字体大小,逻辑要素,布局信息。
Claims (12)
1.一种信息处理终端,所述信息处理终端被允许连接到用于管理电子文档上的元数据项和对应于所述元数据项的注解信息项的信息管理设备,其特征在于,所述信息处理终端包含:
生成器,所述生成器被配置成分析电子文档以生成元数据项,所述元数据项包括所述电子文档中的文本信息和关于所述电子文档的结构信息;
获取单元,所述获取单元被配置成将所述元数据项传送至所述信息管理设备,以使得所述信息管理设备估算类似于所述元数据项的相似元数据项并获取对应于所述相似元数据项的注解信息项;以及
输出单元,所述输出单元被配置成输出与所述电子文档相关的所述注解信息项。
2.如权利要求1所述的终端,其特征在于,所述注解信息项是指示由用户添加至所述电子文档的注释的注释信息,或者是对应于所述电子文档的音频信息。
3.如权利要求2所述的终端,其特征在于,进一步包含被配置成分析所述注释信息的分析单元,并且其中所述获取单元将互相相关的所述注释信息和所述元数据项传送至所述信息管理设备。
4.如权利要求3所述的终端,其特征在于,所述输出单元按照所述元数据项和所述相似元数据项之间的相似度来修改所述注解信息项的输出形式。
5.一种信息管理设备,所述信息管理设备被允许从信息处理终端接收电子文档上的元数据项,其特征在于,所述信息管理设备包含:
存储器,所述存储器被配置成存储所述元数据项和对应于所述元数据项的注解信息项,所述元数据项包括关于所述电子文档的结构信息项和所述电子文档中的文本信息项;
获取单元,所述获取单元被配置成从所述信息处理终端获取作为搜索目标的第一元数据项;
提取单元,所述提取单元被配置成在所述存储器中搜索类似于所述第一元数据项的相似元数据项,并且提取对应于所述相似元数据项的注解信息项;以及
传送器,所述传送器被配置成将被提取的注解信息项传送至所述信息处理终端。
6.如权利要求5所述的设备,其特征在于,如果被包括在所述第二元数据项中的文本信息和结构信息类似于被包括在所述第一元数据项中的所述文本信息和所述结构信息,则所述提取单元提取第二元数据项作为所述相似元数据项。
7.一种信息处理方法,所述信息处理方法用于控制信息处理终端,所述信息处理终端被允许连接到用于管理电子文档上的元数据项和对应于所述元数据项的注解信息项的信息管理设备,其特征在于,所述信息处理方法包含:
分析电子文档以生成包括所述电子文档中的文本信息和关于所述电子文档的结构信息的元数据项;
将所述元数据项传送至所述信息管理设备;
使得所述信息管理设备估算类似于所述元数据项的相似元数据项;
获取对应于所述相似元数据项的注解信息项;以及
输出与所述电子文档相关的所述注解信息项。
8.如权利要求7所述的方法,其特征在于,所述注解信息项是指示由用户添加至所述电子文档的注释的注释信息,或者是对应于所述电子文档的音频信息。
9.如权利要求8所述的方法,其特征在于,进一步包含分析所述注释信息,并且其中所述传送所述元数据项将互相相关的所述注释信息和所述元数据项传送至所述信息管理设备。
10.如权利要求9所述的方法,其特征在于,所述输出所述注解信息项按照所述元数据项和所述相似元数据项之间的相似度来修改所述注解信息项的输出形式。
11.一种信息处理方法,所述信息处理方法用于被允许从信息处理终端接收电子文档上的元数据项的信息管理设备,其特征在于,所述信息处理方法包含:
从所述信息处理终端获取元数据项作为搜索目标;
搜索存储所述元数据项和对应于所述元数据项的注解信息项的存储器,以便检测类似于被获取的所述元数据项的相似元数据项,并提取对应于所述相似元数据项的注解信息项,所述元数据项包括关于所述电子文档的结构信息项和所述电子文档中的文本信息项;以及
将被提取的注解信息项传送至所述信息处理终端。
12.如权利要求11所述的方法,其特征在于,如果被包括在所述第二元数据项中的文本信息和结构信息类似于被包括在所述第一元数据项中的所述文本信息和所述结构信息,则所述搜索所述存储器提取第二元数据项作为所述相似元数据项。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012072517A JP5820320B2 (ja) | 2012-03-27 | 2012-03-27 | 情報処理端末及び方法、並びに、情報管理装置及び方法 |
JP2012-072517 | 2012-03-27 | ||
PCT/JP2013/057572 WO2013146394A1 (en) | 2012-03-27 | 2013-03-12 | Information processing terminal and method, and information management apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104169912A true CN104169912A (zh) | 2014-11-26 |
Family
ID=48471071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380005184.4A Pending CN104169912A (zh) | 2012-03-27 | 2013-03-12 | 信息处理终端和方法,以及信息管理设备和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10417267B2 (zh) |
EP (1) | EP2831775A1 (zh) |
JP (1) | JP5820320B2 (zh) |
CN (1) | CN104169912A (zh) |
WO (1) | WO2013146394A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108810025A (zh) * | 2018-07-19 | 2018-11-13 | 平安科技(深圳)有限公司 | 一种暗网的安全性评估方法、服务器及计算机可读介质 |
CN109597621A (zh) * | 2018-08-24 | 2019-04-09 | 天津字节跳动科技有限公司 | 封装Dagger的方法、装置、Dagger、解耦方法、装置、设备及介质 |
CN109739894A (zh) * | 2019-01-04 | 2019-05-10 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
CN110874527A (zh) * | 2018-08-28 | 2020-03-10 | 游险峰 | 一种基于云端的智能释义注音系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013175608A1 (ja) * | 2012-05-24 | 2013-11-28 | 株式会社日立製作所 | 画像解析装置、画像解析システム、画像解析方法 |
US9141257B1 (en) * | 2012-06-18 | 2015-09-22 | Audible, Inc. | Selecting and conveying supplemental content |
JP2014240884A (ja) | 2013-06-11 | 2014-12-25 | 株式会社東芝 | コンテンツ作成支援装置、方法およびプログラム |
WO2015040743A1 (ja) | 2013-09-20 | 2015-03-26 | 株式会社東芝 | アノテーション共有方法、アノテーション共有装置及びアノテーション共有プログラム |
US10606941B2 (en) * | 2015-08-10 | 2020-03-31 | Open Text Holdings, Inc. | Annotating documents on a mobile device |
US11093494B2 (en) * | 2016-12-06 | 2021-08-17 | Microsoft Technology Licensing, Llc | Joining tables by leveraging transformations |
WO2018225576A1 (ja) * | 2017-06-06 | 2018-12-13 | オムロン株式会社 | スコア算出ユニット、検索装置、スコア算出方法、およびスコア算出プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201632A1 (en) * | 2007-02-16 | 2008-08-21 | Palo Alto Research Center Incorporated | System and method for annotating documents |
CN101571859A (zh) * | 2008-04-28 | 2009-11-04 | 国际商业机器公司 | 用于对文档进行标注的方法和设备 |
US20100278453A1 (en) * | 2006-09-15 | 2010-11-04 | King Martin T | Capture and display of annotations in paper and electronic documents |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001096866A1 (en) * | 2000-06-14 | 2001-12-20 | Vistagen, Inc. | Toxicity typing using liver stem cells |
US7366979B2 (en) * | 2001-03-09 | 2008-04-29 | Copernicus Investments, Llc | Method and apparatus for annotating a document |
JP4025185B2 (ja) | 2002-12-10 | 2007-12-19 | 株式会社東芝 | メディアデータ視聴装置及びメタデータ共有システム |
US7814085B1 (en) * | 2004-02-26 | 2010-10-12 | Google Inc. | System and method for determining a composite score for categorized search results |
EP1730277B1 (en) * | 2004-03-22 | 2009-10-28 | Nuevolution A/S | Ligational encoding using building block oligonucleotides |
US20080005064A1 (en) * | 2005-06-28 | 2008-01-03 | Yahoo! Inc. | Apparatus and method for content annotation and conditional annotation retrieval in a search context |
CA2615659A1 (en) * | 2005-07-22 | 2007-05-10 | Yogesh Chunilal Rathod | Universal knowledge management and desktop search system |
EP1962202A3 (en) * | 2007-02-16 | 2009-01-07 | Palo Alto Research Center Incorporated | System and method for annotating documents |
JP2009070278A (ja) | 2007-09-14 | 2009-04-02 | Toshiba Corp | コンテンツ類似性判定装置およびコンテンツ類似性判定方法 |
US20090254529A1 (en) * | 2008-04-04 | 2009-10-08 | Lev Goldentouch | Systems, methods and computer program products for content management |
US8434001B2 (en) * | 2010-06-03 | 2013-04-30 | Rhonda Enterprises, Llc | Systems and methods for presenting a content summary of a media item to a user based on a position within the media item |
US9262390B2 (en) * | 2010-09-02 | 2016-02-16 | Lexis Nexis, A Division Of Reed Elsevier Inc. | Methods and systems for annotating electronic documents |
US8843852B2 (en) * | 2010-12-17 | 2014-09-23 | Orca Health, Inc. | Medical interface, annotation and communication systems |
JP2012198277A (ja) | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
US9298816B2 (en) * | 2011-07-22 | 2016-03-29 | Open Text S.A. | Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation |
-
2012
- 2012-03-27 JP JP2012072517A patent/JP5820320B2/ja not_active Expired - Fee Related
-
2013
- 2013-03-12 CN CN201380005184.4A patent/CN104169912A/zh active Pending
- 2013-03-12 EP EP13724419.0A patent/EP2831775A1/en not_active Withdrawn
- 2013-03-12 WO PCT/JP2013/057572 patent/WO2013146394A1/en active Application Filing
-
2014
- 2014-09-11 US US14/483,290 patent/US10417267B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100278453A1 (en) * | 2006-09-15 | 2010-11-04 | King Martin T | Capture and display of annotations in paper and electronic documents |
US20080201632A1 (en) * | 2007-02-16 | 2008-08-21 | Palo Alto Research Center Incorporated | System and method for annotating documents |
CN101571859A (zh) * | 2008-04-28 | 2009-11-04 | 国际商业机器公司 | 用于对文档进行标注的方法和设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108810025A (zh) * | 2018-07-19 | 2018-11-13 | 平安科技(深圳)有限公司 | 一种暗网的安全性评估方法、服务器及计算机可读介质 |
CN109597621A (zh) * | 2018-08-24 | 2019-04-09 | 天津字节跳动科技有限公司 | 封装Dagger的方法、装置、Dagger、解耦方法、装置、设备及介质 |
CN109597621B (zh) * | 2018-08-24 | 2022-10-14 | 天津字节跳动科技有限公司 | 封装Dagger的方法、装置、终端设备及存储介质 |
CN110874527A (zh) * | 2018-08-28 | 2020-03-10 | 游险峰 | 一种基于云端的智能释义注音系统 |
CN109739894A (zh) * | 2019-01-04 | 2019-05-10 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
CN109739894B (zh) * | 2019-01-04 | 2022-12-09 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20150006573A1 (en) | 2015-01-01 |
JP5820320B2 (ja) | 2015-11-24 |
WO2013146394A4 (en) | 2013-12-19 |
US10417267B2 (en) | 2019-09-17 |
WO2013146394A1 (en) | 2013-10-03 |
JP2013205994A (ja) | 2013-10-07 |
EP2831775A1 (en) | 2015-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11372935B2 (en) | Automatically generating a website specific to an industry | |
CN104169912A (zh) | 信息处理终端和方法,以及信息管理设备和方法 | |
Bode | A world of fiction: Digital collections and the future of literary history | |
US7788262B1 (en) | Method and system for creating context based summary | |
KR101696174B1 (ko) | 전자책을 제공하기 위한 방법 및 클라우드 서버 | |
US9613003B1 (en) | Identifying topics in a digital work | |
CN104317949B (zh) | 文档片段内容提取方法、装置和系统 | |
CN103544176A (zh) | 用于生成多个页面所对应的页面结构模板的方法和设备 | |
CN105493075A (zh) | 基于所标识的实体的属性值检索 | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US20170109442A1 (en) | Customizing a website string content specific to an industry | |
KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
US20180089180A1 (en) | Method, device, and recording medium for providing translated sentence | |
CN105069175A (zh) | 一种基于版本控制系统的信息检索方法及服务器 | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN112836057A (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN101576885A (zh) | 提取动态生成网页内容的技术方案 | |
JP2021064143A (ja) | 文作成装置、文作成方法および文作成プログラム | |
Chortaras et al. | WITH: human-computer collaboration for data annotation and enrichment | |
CN109923538B (zh) | 文本检索装置、文本检索方法以及计算机程序 | |
JP2019197381A (ja) | 判決文データベースの作成方法、判決文データベースの検索方法、文作成方法、判決文データベースの作成装置、判決文データベースの検索装置、文作成装置、判決文データベースの作成プログラム、判決文データベースの検索プログラム、および文作成プログラム | |
KR102324892B1 (ko) | 문서 주석화 장치 및 방법 | |
US11150871B2 (en) | Information density of documents | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141126 |