CN102968435B - 建立信息类目体系的方法和相应的信息分类浏览检索装置 - Google Patents
建立信息类目体系的方法和相应的信息分类浏览检索装置 Download PDFInfo
- Publication number
- CN102968435B CN102968435B CN201210356156.4A CN201210356156A CN102968435B CN 102968435 B CN102968435 B CN 102968435B CN 201210356156 A CN201210356156 A CN 201210356156A CN 102968435 B CN102968435 B CN 102968435B
- Authority
- CN
- China
- Prior art keywords
- information
- classification
- label
- bibliography
- display module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明涉及为检索系统建立信息类目体系的方法和相应的信息分类浏览检索装置。该方法包括步骤:采用体系分类与分面组配相结合的方式建立多级类目体系;为每一个最底层类目编制标签,为标签分配权重;根据单篇信息所精确匹配类目体系中的标签及其权重,计算其与各类目的相关度,并将单篇信息归到相关度最高的类目下。信息分类浏览检索装置包括用于执行根据本发明提出建立信息类目体系的方法的类目体系索引模块、类目体系展示模块、选择类目展示模块、布尔逻辑运算选择模块以及类目检索结果显示模块。依据本发明,能够减少分类体系的分类层级,降低分类体系维护的工作量,并且由于可以同时检索多个类目的信息,能够有效减少用户的信息检索时间。
Description
技术领域
本专利涉及为检索系统建立信息类目体系的方法和相应的信息分类浏览检索装置。
背景技术
目前大部分的门户网站和计算机系统都提供了基于分类体系的分类检索功能,其总体思路是基于体系分类,按照人工或计算机训练的方式对信息提前进行归类,然后用户基于展现的分类体系进行分类浏览检索。
这种静态的、先组定组式的分类体系主要存在的不足是:(1)分类层级很深,但仍然难以反映较为专指的类目;(2)分类体系修订不便,修订一个底层类目往往“牵一发而动全身”;(3)用户一次只能浏览查看一个类目的信息,无法同时浏览包含多个类目的信息;(4)无法浏览多个交叉类目的信息。
发明内容
为解决传统分类方法层级过多、修订困难以及多类目浏览不便等问题,本发明提出了一种为检索系统建立信息类目体系的方法和相应的信息分类浏览检索装置。
根据本发明的第一方面,提出了一种为检索系统建立信息类目体系的方法,该方法包括如下步骤:建立类目体系,采用体系分类与分面组配相结合的方式建立类目体系,所述类目体系包含多级;为所述类目体系中的每一个最底层类目编制标签,所述标签包括与最底层类目主题直接相关的名词术语,并包括所述名词术语的多语种对照;为所述标签分配权重,其中,所述标签与所述标签的多语种对照的权重相同,并将所述标签按照权重进行降序排列;根据单篇信息所精确匹配类目体系中的标签及其权重,计算该单篇信息与各类目的相关度,其中,对于相关度f(x)有:其中,j为各类目下标签的总数,如果第i个标签在该单篇信息中出现,xi为第i个标签的权重,如果第i个标签未在该单篇信息中出现,xi=0;将所述单篇信息归到相关度最高的类目下。
依据本发明的方法为检索系统建立信息类目体系,由于采用了分面组配的思想,能够减少分类体系的分类层级,降低分类体系维护的工作量,并且某一底层类目的修订不会影响到其它类目。
此外,由于为最底层以及最底层的上一级类目编制了基于权重的、详细的标签,依靠这些标签、权重及信息归类算法,实现了更为准确的信息自动归类。
依据本发明的方法为标签设置多语种对照,使得在用户进行检索时,通过一种语言的标签就能够获得该种语言以及其他语言的文献信息。
根据本发明的另第一方面,提出了一种信息分类浏览检索装置,包括:类目体系索引模块,其用于执行前述建立信息类目体系的方法;类目体系展示模块,其用于显示所建立的类目体系;选择类目展示模块,其用于显示用户从类目体系展示模块中选择的各个类目,所述选择类目展示模块包括复选框,所述复选框用于用户选择用于进行逻辑组配运算的类目;布尔逻辑运算选择模块,包含常用的布尔逻辑运算符,用于选择用户所需的逻辑运算方式;类目检索结果显示模块,用于显示符合用户所选择类目及运算方式的信息。
采用依据本发明的检索装置,通过选择相应的布尔逻辑运算,实现了在不增加类目层级的前提下,反映出非常专指的类目信息的效果,一方面避免了由于分类体系层级过多而降低系统界面的友好性,同时由于可以同时检索多个类目的信息,从而有效减少用户的信息检索时间。
本发明的各个方面将通过下文中的具体实施例的说明而更加清晰。
附图说明
通过参照附图阅读以下所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1示出了依据本发明的一个实施例的方法流图;
图2示出了依据本发明的另一个实施例的检索装置示意图;
图3示出了图2所示实施例中类目体系展示模块示例;
图4示出了图2和图3所述实施例中选择类目展示模块示例;
图5示出了利用依据本发明的信息分类浏览检索装置进行分类检索的流程图。
在图中,贯穿不同的示图,相同或类似的附图标记表示相同或相似的装置(模块)或步骤。
具体实施方式
在以下优选的实施例的具体描述中,将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解,在不偏离本发明的范围的前提下,可以利用其他实施例,也可以进行结构性或者逻辑性的修改。因此,以下的具体描述并非限制性的,且本发明的范围由所附的权利要求所限定。
图1示出了据本发明的一个实施例的方法流图。
在方法步骤101中,建立类目体系,采用体系分类与分面组配相结合的方式建立类目体系,类目体系包含多级。在依据本发明的一个实施例中,类目体系包括三级。
在方法步骤102中,为类目体系中的每一个最底层类目编制标签,该标签包括与最底层类目主题直接相关的名词术语,标签应尽可能详尽,并包括所述名词术语的多语种对照。
在方法步骤103中,为所编制的标签分配权重,其中,所述标签与所述标签的多语种对照的权重相同,并标签按照权重进行降序排列。在依据本发明的一个实施例中,为标签分配的权重是根据专家意见确定的。
在方法步骤104中,采用词语共现的方法,根据单篇信息所精确匹配类目体系中的标签及其权重,计算该单篇信息与各类目的相关度,其中,对于相关度f(x)有:
其中j为各类目下标签的总数,如果第i个标签在该单篇信息中出现,xi为第i个标签的权重,如果第i个标签未在该单篇信息中出现,xi=0。
在依据本发明的一个实施例中,单篇信息可以是学术论文、技术文献、专利文献等等。在依据本发明的另一个实施例中,单篇信息还可能是网页等。
在方法步骤105中,将该单篇信息归到相关度最高的类目下。在依据本发明的一个实施例中,如果某篇信息与多个类目有相等的最高相关度,则这篇信息被归到相关度最高的多个类目下。即存在同一篇信息被归到多个类目的情况。
在类目体系包括三级的实施例中,保留每篇信息与相关三级类目的最高相关度数值,可根据相关度等指标对类目体系中同一三级类目中的所有信息进行排序。
依据本发明的方法还能够包括为类目体系中最底层类目上一级的类目确定标签的步骤,所述上一级类目的标签由其所有子类目的标签组成,并进行去重处理。
图2示出了依据本发明的另一个实施例的检索装置示意图。
如图2所示的检索装置包括类目体系索引模块301、类目体系展示模块302、选择类目展示模块303、布尔逻辑运算选择模块304、类目检索结果显示模块305。
其中,类目体系索引模块301用于执行依据本发明的建立信息类目体系的方法。其包含依据本发明建立的信息类目体系和多语种对照标签,用于建立类目体系、对最底层类目进行标引以及对标引的标签进行权重分配。该模块用于后台类目体系的建立、修改、更新,不为一般用户所见。
类目体系展示模块302用于显示所建立的类目体系。本领域技术人员能够理解的是,类目体系展示模块302是类目体系索引模块301在前台的展示。
图3是图2所示实施例中类目体系展示模块302的示例。在该示例中,类目体系包含三级。类A为一级类目,包含类B和类C两个二级类目,类B包含类B1和B2两个子类目,类C包含类C1、C2、C3三个子类目。B1、B2和C1、C2、C3是最底层类目。
选择类目展示模块303用于显示用户从类目体系展示模块中选择的各个类目。选择类目展示模块303包括复选框,所述复选框用于用户选择用于进行逻辑组配运算的类目。
下面继续以图3所示的实施例为例进行说明,用户在进行检索时,如果想要查看包含“B2和C3类目的交叉信息”或“B2类目的信息或C3类目的信息”,只要选中B2类目和C3类目。
图4示出了图2和图3所示实施例中选择类目展示模块303的示例。用户在类目体系展示模块302中选择的B2和C3类目会立即以完整路径的形式出现在选择类目展示模块303中。用户也可以将选择类目展示模块303中的类目取消,即取消“√”。
布尔逻辑运算选择模块304包含常用的布尔逻辑运算符,用于提供用户所需的逻辑运算方式。通常涉及两个或两个以上的类目才需要选择布尔逻辑运算。在依据本发明的一个实施例中,布尔逻辑运算选择模块304中的布尔逻辑运算符包括“和”、“或”、“非”等常用的逻辑运算符,并且能够以下拉列表或单选钮的方式展示。
类目检索结果显示模块305,用于显示符合用户所选择类目及运算方式的信息。
图5示出了利用依据本发明的信息类目检索装置进行分类检索的流程图。
如图5所示,在方法步骤201中,用户通过展开类目体系展示模块302来展开类目体系。
在方法步骤202中,用户通过包括在选择类目展示模块303中复选框来选择相应类目,从而选择所需查看的类目。
在方法步骤203中,用户通过布尔逻辑运算选择模块304选择布尔逻辑运算符,从而实现对所选择类目的逻辑组合。
最后在方法步骤204中,点击检索按钮。基于前3个步骤,系统后台进行运算和过滤,将符合要求的信息展示给用户。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论如何来看,均应将实施例看作是示范性的,而且是非限制性的。此外,明显的,“包括”一词不排除其他元素和步骤,并且措辞“一个”不排除复数。装置权利要求中陈述的多个元件也可以由一个元件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (7)
1.一种为检索系统建立信息类目体系的方法,该方法包括如下步骤:
a.建立类目体系,采用体系分类与分面组配相结合的方式建立类目体系,所述类目体系包含多级;
b.为所述类目体系中的每一个最底层类目编制标签,所述标签包括与最底层类目主题直接相关的名词术语,并包括所述名词术语的多语种对照;
c.为所述标签分配权重,其中,所述标签与所述标签的多语种对照的权重相同,并将所述标签按照权重进行降序排列;
d.根据单篇信息所精确匹配类目体系中的标签及其权重,计算该单篇信息与各类目的相关度,其中,对于相关度有:
其中,j为各类目下标签的总数,如果第i个标签在该单篇信息中出现,xi为第i个标签的权重,如果第i个标签未在该单篇信息中出现,xi=0;
e.将所述单篇信息归到相关度最高的类目下。
2.根据权利要求1所述的方法,其特征在于,如果某篇信息与多个类目有相等的最高相关度,则这篇信息被归到相关度最高的多个类目下。
3.根据权利要求1所述的方法,其特征在于,根据所述相关度对类目体系中同一多级类目中的所有信息进行排序。
4.根据权利要求1所述的方法,其特征在于,为所述标签分配的权重是根据专家意见确定的。
5.根据权利要求1所述的方法,其特征在于,为类目体系中最底层类目上一级的类目确定标签,所述上一级类目的标签由其所有子类目的标签组成,并进行去重处理。
6.根据权利要求1所述的方法,其特征在于,所述类目体系包含三级。
7.一种信息分类浏览检索装置,包括:
类目体系索引模块(301),其用于执行根据权利要求1-6中任意一项所述的建立信息类目体系的方法;
类目体系展示模块(302),其用于显示所建立的类目体系;
选择类目展示模块(303),其用于显示用户从类目体系展示模块中选择的各个类目,所述选择类目展示模块(303)包括复选框,所述复选框用于用户选择用于进行逻辑组配运算的类目;
布尔逻辑运算选择模块(304),包含常用的布尔逻辑运算符,用于提供用户所需的逻辑运算方式;
类目检索结果显示模块(305),用于显示符合用户所选择类目及运算方式的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210356156.4A CN102968435B (zh) | 2012-09-20 | 2012-09-20 | 建立信息类目体系的方法和相应的信息分类浏览检索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210356156.4A CN102968435B (zh) | 2012-09-20 | 2012-09-20 | 建立信息类目体系的方法和相应的信息分类浏览检索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102968435A CN102968435A (zh) | 2013-03-13 |
CN102968435B true CN102968435B (zh) | 2016-06-29 |
Family
ID=47798575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210356156.4A Active CN102968435B (zh) | 2012-09-20 | 2012-09-20 | 建立信息类目体系的方法和相应的信息分类浏览检索装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102968435B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503000B (zh) * | 2015-09-03 | 2019-10-29 | 菜鸟智能物流控股有限公司 | 对网上交互平台上的物品进行移动的方法和装置 |
CN113849518A (zh) * | 2015-10-14 | 2021-12-28 | 微软技术许可有限责任公司 | 辅助搜索查询 |
CN106354799B (zh) * | 2016-08-26 | 2020-01-14 | 河海大学 | 基于数据质量的主题数据集多层分面过滤方法与系统 |
CN108363800A (zh) * | 2018-02-24 | 2018-08-03 | 孙如妍 | 商业情报分析与大数据系统 |
CN111209387B (zh) * | 2019-12-31 | 2022-02-18 | 上海亿锎智能科技有限公司 | 基于MedDRA的检索分析方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1403958A (zh) * | 2001-09-07 | 2003-03-19 | 联想(北京)有限公司 | 矫正基于向量空间模型文本相似度计算的方法 |
CN101364239A (zh) * | 2008-10-13 | 2009-02-11 | 中国科学院计算技术研究所 | 一种分类目录自动构建方法及相关系统 |
CN101968819A (zh) * | 2010-11-05 | 2011-02-09 | 中国传媒大学 | 面向广域网的音视频智能编目信息获取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6915297B2 (en) * | 2002-05-21 | 2005-07-05 | Bridgewell, Inc. | Automatic knowledge management system |
JP3891909B2 (ja) * | 2002-09-03 | 2007-03-14 | 日本アイ・ビー・エム株式会社 | 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム |
-
2012
- 2012-09-20 CN CN201210356156.4A patent/CN102968435B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1403958A (zh) * | 2001-09-07 | 2003-03-19 | 联想(北京)有限公司 | 矫正基于向量空间模型文本相似度计算的方法 |
CN101364239A (zh) * | 2008-10-13 | 2009-02-11 | 中国科学院计算技术研究所 | 一种分类目录自动构建方法及相关系统 |
CN101968819A (zh) * | 2010-11-05 | 2011-02-09 | 中国传媒大学 | 面向广域网的音视频智能编目信息获取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102968435A (zh) | 2013-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fortuna et al. | Semi-automatic data-driven ontology construction system | |
Weismayer et al. | Identifying emerging research fields: a longitudinal latent semantic keyword analysis | |
CN101438285B (zh) | 用于对文档数据库中的文档进行域识别的方法 | |
US9679049B2 (en) | System and method for providing visual suggestions for document classification via injection | |
Chen | Visualising semantic spaces and author co-citation networks in digital libraries | |
US20180032606A1 (en) | Recommending topic clusters for unstructured text documents | |
CN102968435B (zh) | 建立信息类目体系的方法和相应的信息分类浏览检索装置 | |
US20130041896A1 (en) | Context and process based search ranking | |
US20080244375A1 (en) | Hyperlinking Text in Document Content Using Multiple Concept-Based Indexes Created Over a Structured Taxonomy | |
CA2562779A1 (en) | Data storage and retrieval | |
Furner | User tagging of library resources: toward a framework for system evaluation | |
US20140136542A1 (en) | System and Method for Divisive Textual Clustering by Label Selection Using Variant-Weighted TFIDF | |
Bales et al. | Bibliometric visualization and analysis software: State of the art, workflows, and best practices | |
Gasparetti et al. | Exploiting web browsing activities for user needs identification | |
Feldman | The answer machine | |
Hong et al. | Scholastic: Graphical human-AI collaboration for inductive and interpretive text analysis | |
CN103853797B (zh) | 一种基于n元图片索引结构的图片检索方法与系统 | |
US20070277106A1 (en) | Method and structure for managing electronic slides using a slide-reading program | |
García-Plaza et al. | Reorganizing clouds: A study on tag clustering and evaluation | |
CN102270201B (zh) | 用于网络文件的多维索引的方法和设备 | |
Surendran et al. | Automatic Discovery of Personal Topics to Organize Email. | |
Fortuna et al. | System for semi-automatic ontology construction | |
Fernando et al. | Comparing taxonomies for organising collections of documents | |
Salatino et al. | Detection, analysis, and prediction of research topics with scientific knowledge graphs | |
Cristea et al. | Quo vadis: a corpus of entities and relations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |