CN102541901A - 一种文档阅读时的信息识别输出方法及系统 - Google Patents
一种文档阅读时的信息识别输出方法及系统 Download PDFInfo
- Publication number
- CN102541901A CN102541901A CN2010106051494A CN201010605149A CN102541901A CN 102541901 A CN102541901 A CN 102541901A CN 2010106051494 A CN2010106051494 A CN 2010106051494A CN 201010605149 A CN201010605149 A CN 201010605149A CN 102541901 A CN102541901 A CN 102541901A
- Authority
- CN
- China
- Prior art keywords
- target vocabulary
- vocabulary
- target
- content
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种文档阅读时的信息输出方法及系统,属于计算机、软件技术领域。该信息输出系统包括有用以采集文档中的目标词汇的目标词汇采集模块,用以搜索目标词汇在所出现的指定文档中的相关位置的目标词汇查询模块,以及针对选定的目标词汇,呈现其它目标词汇相关内容的信息列表的查询结果输出模块。对应的信息输出方法具体为:步骤1,采集文档中的目标词汇;步骤2,搜索目标词汇所出现的指定文档中的相关位置;步骤3,针对选定的目标词汇,呈现其它目标词汇相关内容的信息列表。利用本发明,用户能够在制定文档中,快速获得与目标词汇相关的信息内容。
Description
技术领域
本发明属于计算机、软件技术领域。
技术背景
我们在进行文档阅读的时候,经常会遇到一个情况,就是人们希望查找与特定词汇相关联的其它部分的内容。
比如,用户在阅读一篇文献时,最关注的对象,是这篇文献所描述的红外触摸屏结构。于是,用户可能会希望了解“红外触摸屏”这一关键词在文中出现的地方。这样,能为用户快速获得相关信息带来帮助。
发明内容
本发明的目的,是提供一种文档阅读时的信息输出方法及系统,利用本发明,用户能够在制定文档中,快速获得与目标词汇相关的信息内容。
一种文档阅读时的信息识别输出方法,该方法包括有如下步骤:
步骤1,采集文档中的目标词汇;
步骤2,搜索目标词汇所出现的指定文档中的相关位置;
步骤3,针对选定的目标词汇,呈现其它目标词汇相关内容的信息列表。
优选的,针对于所述的目标词汇,还包括选择其同义词或近义词的步骤,包括如下,
(1)选择特定的目标词汇;
(2)基于目标词汇搜索同义词和近义词数据库,产生同义或近义词汇列表;
(3)将目标词汇以及同义、近义词汇列表,均作为待搜索的目标词汇。
优选的,在步骤3中所述的信息列表,展示的内容是与目标词汇相同的其它同类内容的位置链接,或者是其它与目标词汇相近、类似内容的位置链接。
优选的,在步骤3中所述的信息列表的展示形式,还包括有如下几种至少其一:
a呈现出与目标词汇相关联的词汇部分;
b呈现出与目标词汇相关联的整个句子;
c呈现出与目标词汇相关联的整个段落;
d呈现出与目标词汇相关联的整个文档。
优选的,在步骤3中所述的信息列表,展示的内容是与目标词汇相同,或相近、类似词汇在指定文档中所出现的频率。
优选的,在步骤3中所述的信息列表,展示的内容还包括有不同频率状况的目标词汇的相应位置。
优选的,在步骤3中所述的信息列表,所展示的内容中,包括有与目标词汇相关联的截图。
优选的,在步骤3中所述的信息列表,所展示的内容中,包括有整篇文章的图像概览,或者指定文章的图像概览,在该图像概览中,标注有目标词汇的位置。
优选的,当将光标移动到图像概览中特定目标词汇的相应位置时,触发相应部分的文字进入到放大状态。
优选的,所述的步骤1或步骤2或步骤3,均通过用户选择目标词汇的操作来实现触发。
优选的,目标词汇中包括有两个或两个以上独立内容,独立内容之间为并列关系。
优选的,当目标词汇中包括有两个或两个以上独立内容时,信息列表的输出方式为如下两者其一,
(1)在信息列表中共同显示各目标词汇所对应的目标信息;
(2)设定各独立内容之间的位置条件,再按照位置条件进行输出。
优选的,所述的位置条件,为如下三者其一,
(1)要求共同出现在同一段落中;
(2)要求共同出现在相邻段落中;
(3)要求共同出现在预定数量的词汇间隔中。
一种文档阅读时的信息识别输出系统,该系统包括:
目标词汇采集模块,用以采集文档中的目标词汇;
目标词汇查询模块,用以搜索目标词汇在所出现的指定文档中的相关位置;
查询结果输出模块,针对选定的目标词汇,呈现其它目标词汇相关内容的信息列表。
附图说明
图1是本发明中的一个实施例的结构示意图。
图2是本发明中的一个实施例的结构示意图,为其它实施例。
图3是本发明中的一个实施例的结构示意图,为其它实施例。
图4是本发明中的一个实施例的结构示意图,为其它实施例。
图5是本发明所描述方法的流程图。
图6是本发明所描述系统的结构示意图。
具体实施例
针对于本发明主要功能的描述:
在本发明中,通过采集文档中所出现的特定信息内容,然后对该文档或指定文档中的类似内容进行搜索,来获得相应的同类型内容的布局信息。当用户触发相应的内容时,就可以将搜索到的相关信息以列表的形式输出了。
图1是本发明中的一个实施例的示意图。
参图中所示,这儿展示了文档内容100。文档内容100的内容量,可大也可小;可以是用户正在查看的文档内容,也可以链接到其它指定的文档。
在文档内容100中,出现有目标词汇200。目标词汇200原则上,可以是文档内容100中的任意词汇。通常是用户需要特别进行了解的特定内容,故称为目标词汇。
作为举例,在本实施例中,目标词汇200共出现了6次。
于是,当用户将鼠标放置到该目标词汇200上时,即可触发信息列表300。在该信息列表300中,展示了该文档中关联目标词汇210出现的6处位置所对应的句子。这种包含有目标词汇200的句子信息形式,称为关联句子栏310。
图2是本发明中的其它实施例的示意图。
和图1所示的实施例比较起来,其区别之处在于:
在信息列表300中,展示的不是关联句子栏310,而是包括有目标词汇200的整个段落,称为关联段落栏320。当然,在关联段落栏320的内容比较多时,可以只显示该段落的一部分;当用户将鼠标的光标放置到关联段落栏320上时,就可以触发该段落中的更多内容显示出来。
利用这种方式,用户可以非常方便地查看目标词汇200在文档中出现的其它位置,已经相应段落的信息情况。
图3是本发明中的其它实施例的示意图。
和图2所示的实施例比较起来,其区别之处在于:
在信息列表300中,还展示有关联目标链接栏330,以及频次统计栏340和近义词统计栏350。
其中的关联目标链接栏330,它用以指向包括有目标词汇200的段落或句子所对应的位置。比如,在该实施例中,点击了关联目标链接栏330,就可以将文档所在的位置,直接指引到目标词汇200在文档中所对应的段落位置。
其中的频次统计栏340,用以统计目标词汇200在指定的文档中,所出现的次数。在本实施例中,共出现了六次。
所述的近义词统计350,相当于对目标词汇200的扩充。可以根据用户的需要来设定。比如,目标词汇200可以只包括与用户所选择的目标词汇内容完全一样的情况;另外,也可以包括与目标词汇属于近义词或同义词的情况。比如,“通信网络”和“通讯网络”等,都可以视为近义词。另外,在进行该方面的扩充时,还可以由用户直接输入近义词。扩充后的内容,同样属于目标词汇200。
图4是本发明中的其它实施例的示意图。
和前面的实施例比较起来,其区别之处在于:
在信息列表300中,展示的是整篇文章的架构。对于文档的这种显示形式,我们称为文档架构栏360。文档架构栏360用以展示在整篇文档中,目标词汇200所出现的情况。利用这种方式,可以基于目标词汇200,来对整篇文档做更快的了解。
其中,如果文档架构栏360包括有很多页面,还可以通过翻页工具栏370来进行翻页。
结合着前面的描述,参照着图5所示,对本发明所采用的方法做进一步的描述:
该方法包括有如下步骤:
步骤1,采集文档中的目标词汇。
文档中所出现的任何词汇信息,都可以被作为目标词汇。该目标词汇作为判断该文档,以及指定文档中目标词汇出现频率及位置的依据。
通常来说,关键词可以选择为词组、短语、句子等形式。
当然,如前所述,目标词汇还可以根据用户的设定,做同义词、近义词方面的扩充。
步骤2,搜索目标词汇所出现的指定文档中的相关位置;
将目标词汇作为搜索的依据词汇,对所在的文档或者指定的文档中的内容进行搜索,找出符合该目标词汇特征的相关内容。
对于目标词汇中包含有同义词或近义词的情况,在本发明中还提供了一种相关的搜索方法。
具体的实施时,可以包括如下步骤:
(1)选择特定的目标词汇;
(2)基于与目标词汇搜索同义词和近义词数据库,产生同义或近义词汇列表;
(3)将目标词汇以及同义、近义词汇列表,均作为待搜索的目标词汇。
在此基础上,就可以将前述的扩展之后的目标词汇在指定文档中进行搜索了。
当然,由用户自己制定特定的同义词和近义词,则更为准确。
步骤3,针对选定的目标词汇,呈现其它目标词汇相关内容的信息列表。
在完成了前述的搜索过程之后,就可以获得与目标词汇相关联的其它相关内容的位置了。利用这种搜索获得的信息,就可以建立起相关联的信息列表。
步骤3中所述信息列表的展示形式,具体形式是不限定的。比如,可以是如下几种:
a呈现出与目标词汇相关联的词汇部分。
b呈现出与目标词汇相关联的整个句子。如图1所示的那样。
c呈现出与目标词汇相关联的整个段落。如图2所示的那样。
d呈现出与目标词汇相关联的整个文档。如图4所示的那样。所展示的内容,可以包括有整篇文章的图像概览,或者指定文章的图像概览,在该图像概览中,标注有目标词汇的位置。
所述的信息列表,还可以包括有如下信息形式:
1,与目标词汇相同的其它同类内容的位置链接。如图3所示的那样。
2,其它与目标词汇相近、类似内容的位置链接。
通过点击这些链接,用户可以直接将文档跳到相应的位置了。
3,还可以显示出与目标词汇相同或相近、类似词汇在指定文档中所出现的频率情况。
进一步,还可以指明不同频率状况的目标词汇的相应位置。特别是,出现频率最高的相应位置,如相应的段落。
作为举例,用户所希望了解的概念包括有“机身壳体”,这种情况下,如果整篇文章中,该词汇出现的频率一共是18次,而在特定的一个段落或者相邻的多个段落中,词汇之间出现的密度最高,于是,就可以将该密度高的文档位置搜集出来。
进一步,所展示的内容中,还可以包括与目标词汇相关联的截图。截图的范围,可大可小,具体可以由用户设定。
进一步,当用户将光标移动到特定目标词汇的相应位置时,可以触发相应部分的文字进入到放大状态,用户可以更清晰地查看。
进一步,前述的步骤1或步骤2或步骤3,均通过用户选择目标词汇的操作来实现触发。比如,用户使用光标圈选了相应的目标词汇,使其转变为阴影状态,就可以触发实现本发明的目标词汇的搜索及呈现功能。当然,也可以通过同步选择快捷键,或者选择特定的功能按钮,来触发该功能。
更进一步,目标词汇中还可以包括有两个或两个以上独立内容,独立内容之间,相当于“and”的并列关系。这种功能,可以查询更多具有特定含义的关联内容。
作为举例,可以这样:目标词汇可以同时包括“通信部件+电路板”这两个独立的词汇内容。在输入查询结果后,有两种输出方式:
输出方式1,按照前面所描述的方式,只是增加相应的目标词汇,在信息列表中共同显示多个目标词汇所对应的目标信息。
输出方式2,可以设定同一目标词汇中,各独立内容之间的位置条件。比如,该条件可以是:(1)要求共同出现在同一段落中;(2)要求共同出现在相邻段落中;(3)要求共同出现在预定数量的词汇间隔中,比如300个词汇之内,必须共同出现各独立内容。
根据前面所描述的本发明的实现方法,参图6所示,本发明还描述了一种用以实现该发明方法的系统,它包括有如下结构:
目标词汇采集模块400,用以采集文档中的目标词汇;
目标词汇查询模块410,用以搜索目标词汇在出现的指定文档中的相关位置;
查询结果输出模块420,针对选定的目标词汇,呈现其它目标词汇相关内容的信息列表。
其中,该系统的不同模块之间,可以设置在一个终端上,也可以设置在不同的终端上,通过专线或者网络相互连接。
以上是对本发明的描述而非限定,基于本发明思想的其它实施例,亦均在本发明的保护范围之中。
Claims (14)
1.一种文档阅读时的信息识别输出方法,其特征在于该方法包括有如下步骤:
步骤1,采集文档中的目标词汇;
步骤2,搜索目标词汇所出现的指定文档中的相关位置;
步骤3,针对选定的目标词汇,呈现其它目标词汇相关内容的信息列表。
2.根据权利要求1所述的一种文档阅读时的信息识别输出方法,其特征在于:针对于所述的目标词汇,还包括选择其同义词或近义词的步骤,包括如下,
(1)选择特定的目标词汇;
(2)基于目标词汇搜索同义词和近义词数据库,产生同义或近义词汇列表;
(3)将目标词汇以及同义、近义词汇列表,均作为待搜索的目标词汇。
3.根据权利要求1所述的一种文档阅读时的信息识别输出方法,其特征在于:在步骤3中所述的信息列表,展示的内容是与目标词汇相同的其它同类内容的位置链接,或者是其它与目标词汇相近、类似内容的位置链接。
4.根据权利要求1所述的一种文档阅读时的信息识别输出方法,其特征在于:在步骤3中所述的信息列表的展示形式,还包括有如下几种至少其一,
a呈现出与目标词汇相关联的词汇部分;
b呈现出与目标词汇相关联的整个句子;
c呈现出与目标词汇相关联的整个段落;
d呈现出与目标词汇相关联的整个文档。
5.根据权利要求1所述的一种文档阅读时的信息识别输出方法,其特征在于:在步骤3中所述的信息列表,展示的内容是与目标词汇相同,或相近、类似词汇在指定文档中所出现的频率。
6.根据权利要求5所述的一种文档阅读时的信息识别输出方法,其特征在于:在步骤3中所述的信息列表,展示的内容还包括有不同频率状况的目标词汇的相应位置。
7.根据权利要求1所述的一种文档阅读时的信息识别输出方法,其特征在于:在步骤3中所述的信息列表,所展示的内容中,包括有与目标词汇相关联的截图。
8.根据权利要求1所述的一种文档阅读时的信息识别输出方法,其特征在于:在步骤3中所述的信息列表,所展示的内容中,包括有整篇文章的图像概览,或者指定文章的图像概览,在该图像概览中,标注有目标词汇的位置。
9.根据权利要求8所述的一种文档阅读时的信息识别输出方法,其特征在于:当将光标移动到图像概览中特定目标词汇的相应位置时,触发相应部分的文字进入到放大状态。
10.根据权利要求1所述的一种文档阅读时的信息识别输出方法,其特征在于:所述的步骤1或步骤2或步骤3,均通过用户选择目标词汇的操作来实现触发。
11.根据权利要求1所述的一种文档阅读时的信息识别输出方法,其特征在于:目标词汇中包括有两个或两个以上独立内容,独立内容之间为并列关系。
12.根据权利要求11所述的一种文档阅读时的信息识别输出方法,其特征在于:当目标词汇中包括有两个或两个以上独立内容时,信息列表的输出方式为如下两者其一,
(1)在信息列表中共同显示各目标词汇所对应的目标信息;
(2)设定各独立内容之间的位置条件,再按照位置条件进行输出。
13.根据权利要求12所述的一种文档阅读时的信息识别输出方法,其特征在于:所述的位置条件,为如下三者其一,
(1)要求共同出现在同一段落中;
(2)要求共同出现在相邻段落中;
(3)要求共同出现在预定数量的词汇间隔中。
14.一种文档阅读时的信息识别输出系统,其特征在于该系统包括:
目标词汇采集模块,用以采集文档中的目标词汇;
目标词汇查询模块,用以搜索目标词汇在所出现的指定文档中的相关位置;
查询结果输出模块,针对选定的目标词汇,呈现其它目标词汇相关内容的信息列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106051494A CN102541901A (zh) | 2010-12-26 | 2010-12-26 | 一种文档阅读时的信息识别输出方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106051494A CN102541901A (zh) | 2010-12-26 | 2010-12-26 | 一种文档阅读时的信息识别输出方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102541901A true CN102541901A (zh) | 2012-07-04 |
Family
ID=46348819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106051494A Pending CN102541901A (zh) | 2010-12-26 | 2010-12-26 | 一种文档阅读时的信息识别输出方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102541901A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150368A (zh) * | 2013-03-07 | 2013-06-12 | 青岛海信电器股份有限公司 | 信息搜索及显示方法和装置 |
CN103744857A (zh) * | 2013-12-10 | 2014-04-23 | 厦门亿联网络技术股份有限公司 | 一种在即时通讯的聊天记录中搜索关键字的方法 |
CN104077011A (zh) * | 2013-03-26 | 2014-10-01 | 北京三星通信技术研究有限公司 | 一种同类型文档间的关联方法和终端设备 |
CN107861943A (zh) * | 2017-10-20 | 2018-03-30 | 中国地质大学(武汉) | 一种从文档集中快速提取有用数据的方法 |
TWI639927B (zh) * | 2016-05-27 | 2018-11-01 | 雲拓科技有限公司 | 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法 |
CN109933803A (zh) * | 2019-03-25 | 2019-06-25 | 北京金山数字娱乐科技有限公司 | 一种成语信息展示方法、展示装置、电子设备及存储介质 |
CN113204579A (zh) * | 2021-04-29 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060271527A1 (en) * | 2003-12-26 | 2006-11-30 | Hiroshi Kutsumi | Dictionary creation device and dictionary creation method |
CN101004737A (zh) * | 2007-01-24 | 2007-07-25 | 贵阳易特软件有限公司 | 基于关键词的个性化文档处理系统 |
CN101604312A (zh) * | 2007-12-07 | 2009-12-16 | 宗刚 | 信息的检索管理交流的方法和系统 |
-
2010
- 2010-12-26 CN CN2010106051494A patent/CN102541901A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060271527A1 (en) * | 2003-12-26 | 2006-11-30 | Hiroshi Kutsumi | Dictionary creation device and dictionary creation method |
CN101004737A (zh) * | 2007-01-24 | 2007-07-25 | 贵阳易特软件有限公司 | 基于关键词的个性化文档处理系统 |
CN101604312A (zh) * | 2007-12-07 | 2009-12-16 | 宗刚 | 信息的检索管理交流的方法和系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150368A (zh) * | 2013-03-07 | 2013-06-12 | 青岛海信电器股份有限公司 | 信息搜索及显示方法和装置 |
CN103150368B (zh) * | 2013-03-07 | 2017-10-20 | 青岛海信电器股份有限公司 | 信息搜索及显示方法和装置 |
CN104077011A (zh) * | 2013-03-26 | 2014-10-01 | 北京三星通信技术研究有限公司 | 一种同类型文档间的关联方法和终端设备 |
CN104077011B (zh) * | 2013-03-26 | 2017-08-11 | 北京三星通信技术研究有限公司 | 一种同类型文档间的关联方法和终端设备 |
CN103744857A (zh) * | 2013-12-10 | 2014-04-23 | 厦门亿联网络技术股份有限公司 | 一种在即时通讯的聊天记录中搜索关键字的方法 |
TWI639927B (zh) * | 2016-05-27 | 2018-11-01 | 雲拓科技有限公司 | 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法 |
CN107861943A (zh) * | 2017-10-20 | 2018-03-30 | 中国地质大学(武汉) | 一种从文档集中快速提取有用数据的方法 |
CN109933803A (zh) * | 2019-03-25 | 2019-06-25 | 北京金山数字娱乐科技有限公司 | 一种成语信息展示方法、展示装置、电子设备及存储介质 |
CN113204579A (zh) * | 2021-04-29 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
CN113204579B (zh) * | 2021-04-29 | 2024-06-07 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6416150B2 (ja) | 検索方法、検索システム及びコンピュータプログラム | |
CN104123332B (zh) | 搜索结果的显示方法及装置 | |
CN102541901A (zh) | 一种文档阅读时的信息识别输出方法及系统 | |
US10891700B2 (en) | Methods and computer-program products for searching patent-related documents using search term variants | |
CN102968465B (zh) | 网络信息服务平台及其基于该平台的搜索服务方法 | |
CN105468605A (zh) | 一种实体信息图谱生成方法及装置 | |
CN105493075A (zh) | 基于所标识的实体的属性值检索 | |
US20050240579A1 (en) | Information retrieval system | |
WO2007107993A2 (en) | Method and apparatus for extracting terms based on a displayed text | |
US9753899B1 (en) | Error identification, indexing and linking construction documents | |
CN102456016A (zh) | 一种对搜索结果进行排序的方法及装置 | |
CN103942264A (zh) | 推送包含新闻信息的网页的方法和装置 | |
CN104881504A (zh) | 一种信息搜索方法及装置 | |
US20090077031A1 (en) | System and method for creating full-text indexes of patent documents | |
Hu et al. | Embracing information explosion without choking: Clustering and labeling in microblogging | |
Mowbray et al. | A free access, automated law citator with international scope: the LawCite project | |
CN104123378A (zh) | 一种信息处理方法及电子设备 | |
CN103838877A (zh) | 基于搜索的时效性信息网页结果的推送方法和装置 | |
EP2026216A1 (en) | Data processing method, computer program product and data processing system | |
CN104317888B (zh) | 一种全文检索测试数据生成方法 | |
KR102041915B1 (ko) | 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법 | |
CN111782958A (zh) | 推荐词确定方法、装置、电子装置及存储介质 | |
Martins et al. | A geo-temporal information extraction service for processing descriptive metadata in digital libraries | |
KR100645711B1 (ko) | 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템 | |
CN107038230A (zh) | 一种基于后缀数组的短信查找方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120704 |