CN105117487A - 一种基于内容结构的图书语义检索方法 - Google Patents

一种基于内容结构的图书语义检索方法 Download PDF

Info

Publication number
CN105117487A
CN105117487A CN201510600565.8A CN201510600565A CN105117487A CN 105117487 A CN105117487 A CN 105117487A CN 201510600565 A CN201510600565 A CN 201510600565A CN 105117487 A CN105117487 A CN 105117487A
Authority
CN
China
Prior art keywords
book
vector
content
books
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510600565.8A
Other languages
English (en)
Other versions
CN105117487B (zh
Inventor
王强
宁吴夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Taoyi Data Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201510600565.8A priority Critical patent/CN105117487B/zh
Publication of CN105117487A publication Critical patent/CN105117487A/zh
Application granted granted Critical
Publication of CN105117487B publication Critical patent/CN105117487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于图书内容结构的语义关联检索方法。本发明考虑到图书的题名、目录、摘要对图书主要内容贡献程度不同以及目录中的章标题、节标题对体现图书的内容重要程度不同,将图书内容结构,包括图书标题、目录结构、摘要结构用领域词典进行中文分词、去停用词处理和用领域本体进行同义词扩展而得到一组关键词,并对处于图书不同结构的关键词赋予不同权重,用向量空间模型存储带结构权重的图书内容。采用领域本体对用户输入的查询词进行语义关联扩展,通过计算用户检索意图向量和图书内容结构向量相似度来更准确地获得与用户查询内容最相关的图书。本发明提高了查全率、查全率,改善了现在图书检索中关键词机械匹配。

Description

一种基于内容结构的图书语义检索方法
技术领域
本发明涉及数字图书领域,尤其涉及对图书的内容进行语义关联检索的方法。
背景技术
数字图书馆的核心竞争力是对数字图书的准确检索,而准确检索的核心是对图书内容的准确理解和对用户检索意图的准确理解,目前对图书内容的语义检索研究远远滞后实际需求。
目前数字图书馆、当当网、亚马逊等图书销售网用户对图书的检索主要是基于关键字查询,用户的查询意图不能被合理理解、图书内容信息通过题目和主题词不能被充分表达,用户往往需要通过大量的人工筛选去选择目标,设置要进行二次检索,给用户带来很大的不便,查全率、查准率也不能令人满意。
通过分析不难发现通常一本图书不止一个子主题,目录内容比题名、主题名称更能表现图书所包含的多个主题及其所占的比重。为了解决上述问题,本发明提出一种语义关联检索方法,综合考虑目录中关键词之间的语义关联以及关键词所处位置对以主题表达的贡献程度,提高查全率和查准率。
发明内容
鉴于现有技术存在的问题,本发明旨在于提供一种对图书内容进行语义关联检索的方法。该方法包括如下步骤:步骤(1)构建领域词典辅助中文分词,对用户查询语句进行文本预处理,用同义词词典对关键词进行扩展,得到用户初始查询关键词集T1;步骤(2)用户初始查询关键词集T1经过领域本体进行语义关联计算,构成语义关联向量V1;步骤(3)用户初始查询关键词集T1,对图书数据库检索,获得初始图书集B1。步骤(4)分别针对初始图书集B1中每本书,进行T1的内容结构关联,生成若干内容结构关联向量,根据一定策略合并向量,最终形成内容结构关联向量V2;步骤(5)对步骤(2)生成的语义关联向量V1与步骤(4)生成的内容结构关联向量V2进行一定策略的向量融合,最后选取阈值在一定范围内的关键词作为最终的用户意图查询关键词集T2;步骤(6)用户意图查询关键词集T2对图书数据库进行检索,并通过计算T2对应的权值向量V3和图书向量V4的余弦相似度,将检索到的图书从大到小排序输出。
进一步,本发明中的步骤(1)进一步包括:分析提取领域知识的概念,经过专家参与构建领域词典,用户输入的检索语句在领域词典参与下进行中文分词,并进行同义词扩展得到关键词集,作为用户初始检索关键词集,参与后续的语义关联、结构关联。
进一步,本发明中的步骤(2)进一步包括:分析提取领域知识的概念、实例、关系构建领域本体。检索词集在上述领域本体中映射,并根据语义相似度、相关度算法,进行语义关联。如果不同关键词经过领域本体语义关联到同一个概念,则权重取最大的权值。
进一步,本发明中的步骤(3)进一步包括:领域词典参与图书中文分词,并对图书数据库建立索引,将用户检索词集的各个关键词分别在索引中检索,获得包含用户检索关键词的图书集前N本,服务于下一步内容结构关联。
进一步,本发明中的步骤(4)进一步包括:对步骤(3)所得图书集中各图书书名、目录用树状结构进行存储,本文定义为内容结构,其中根节点是书名节点。计算映射到的节点与其他节点的结构关联度,并对叶子节点信息进行基于领域本体的语义扩展,将其子概念加入,生成结构语义关联向量。
进一步,本发明中的步骤(5)进一步包括:对经过领域本体语义关联和内容结构关联的向量进行一定策略的向量融合,仅通过语义关联导致关联过范、仅经过内容结构关联导致的关联过窄,因为目录虽然是图书主要内容的代表,但是仅仅是浓缩的表达,有许多相关的重要概念都出现在图书内容中而非目录中,所以仅经过内容结构关联会带来概念遗漏问题。融合策略可以使同时在领域本体和内容结构中关联度都大的词语权重更大,仅在其中一个中出现的词语关联度弱化,最后选取融合后的向量阈值在一定范围内的关键词作为用户意图检索关键词。
进一步,本发明中的步骤(6)进一步包括:经过语义关联处理后的向量关键词对图书数据库进行检索,在图书内容结构中不同层次的节点根据其对图书主题内容贡献程度不同而赋予不同权重,结合向量空间模型,通过计算内容语义关联向量和图书向量空间模型表示的向量的余弦相似度,将检索到的图书排序输出。
本发明的有益效果:充分理解用户的查询意图,解决同义词问题,结合语义关联、内容结构关联推理用户查询意图,提高查全率、查全率,改善现在图书检索中关键词机械匹配,真正实现将用户意图和图书内容智能匹配的检索。
附图说明
图1是本发明所述方法的流程图。
具体实施方式
为使本发明的具体特征和优点更加明显易懂,下面结合附图和具体实施方式,对本发明做进一步的详细说明。
图1是本发明所述方法的流程图,如图1所示,本发明包括如下几个步骤:
步骤(1)用户输入检索语句经过领域词典预处理得到若干关键词,对上述关键词进行领域本体的同义词扩展,得到用户初始查询关键词集T1。例如用户输入中文分词技术,扩展词需要加入中文分词、分词技术。
步骤(2)查询关键词集T1在领域本体中映射,并根据语义相似度、相关度算法,计算所映射的概念与其它概念的语义关联度。如果不同关键词经过领域本体语义关联到同一个概念,则此概念的权重为计算得到的最大值,得到语义关联向量V1。
V1=(c1,w1),(c2,w2),(c3,w3),...,(cn,wn)
其中:wi代表概念ci与T1中的代表用户意图的查询关键词的语义关联权重,权重越大代表它与用户意图的关联性越大。
例如有本体中的两个概念节点ci、cj,它们的语义关联度根据公式(1)来计算:
simrel(ci,cj)=sim(ci,cj)+rel(ci,cj)+sim(ci,cj)×rel(ci,cj)(1)
公式(1)语义关联度包括语义相似度计算、语义相关度计算,例如两个概念节点ci、cj,它们的语义相似度计算如公式(2),语义相关度计算如公式(3)
s i m ( c i , c j ) = { 1 c i = c j α d i s tan c e ( c i , c j ) × β | N o d e S e t ( c i ) ∩ N o d e S e t ( c j ) | N o d e S e t ( c i ) ∪ N o d e S e t ( c j ) × 1 γ * | L e v e l ( c i ) - L e v e l ( c j ) | c i ≠ c j - - - ( 2 )
r e l ( c i , c j ) = 1 λ S h o r t e s t P ( c i , c j ) + λ - - - ( 3 )
α、β、γ为三个可调节的参数,分别反映语义距离、语义重合度和节点层次差对语义相似度的贡献程度。distance(ci,cj)表示从ci到cj所经过的路径长度,NodeSet(ci)是从ci出发,向上直到根R所经过的概念节点集合,Level(ci)表示节点ci在本体层次树中所处的层次,ShortestP(ci,cj)表示ci到cj的最短路径长度。
步骤(3)领域词典参与图书内容中文分词,并对图书数据库建立索引,将查询关键词集T1的各个关键词分别在索引中检索,获得所有包含用户检索关键词的图书,形成初始图书集B1,服务于下一步内容结构关联。
步骤(4)初始图书集B1中每本书内容都是以树状结构来描述的,其中根节点深度为0存储书名、章节点深度为1存储章标题的内容、节节点深度为2存储节标题的内容、子节节点深度为3存储子节标题的内容,用T1中的关键词映射到B1的树状结构,被直接映射到的节点权重为1,根据实验,其子节点的权重分别为0.8、若有子节点每次递减0.2,兄弟节点的权重为0.3,父节点权重为0.4,子节点权重以父节点的4/5来计算,父节点的权重为子节点权重的2/5。
根据相应的结构语义关联算法,计算扩展词的权重,生成经图书内容结构树扩展后的检索向量V2,
V2=((c1,w‘1),(c2,w’2),(c3,w‘3),...,(cn,w’n)(4)
向量中关键词的权重代表它与初始关键词的相关程度,结构语义相关算法如公式(4)
W(k,q|D)=log(stf(k|D)+1.0)*log(stf(q|D)+1.0)(4)
结构语义关联度算法考虑关键词在局部文档所处的位置,对传统的局部共现公式中关键词出现的频率做了修改。修改部分:tf(k|D),代表关键词k在文档D中出现的频率,将其修改为结构频率Mi代表关键词k所处第i个位置的结构权重,m代表在文档D中关键词K出现的次数。
对前N本图书做图书内容结构关联扩展后,对其中所有相同关键词在不同图书中的共现权重做合并,参照公式(5)
并进行归一化,
其中W‘(k,q)代表初始查询关键词q经过内容结构关联的关键词K的权重,在向量中表示为(k,w’)。
具体到扩展向量中,每一个关键词K会与一个概念C想对应,即可以表示为(C,w’)。
步骤(5)对经过领域本体语义关联和内容结构关联的向量进行一定策略的向量融合,选取融合后的向量阈值在一定范围内的关键词作为用户意图检索关键词。融合策略见公式(6)
V3=θV1+μV2(6)
θ、μ是调节因子,θ+μ=1,经过融合向量V1、V2使得同时出现在领域本体和图书内容结构中的关键词具有更高的权重,仅出现在领域本体或者图书目录内容结构中的关键词权重被削弱,这样可以有效解决”用户意图偏离“的现象。
步骤(6)利用步骤(1)构建的领域词典对图书内容进行文本预处理。用向量空间模型表示图书的内容结构,综合考虑图书内容中关键词次数和出现位置来计算关键词的权重。
经过领域词典对图书预处理得到的词项,能有效解决通用词典预处理造成的领域词汇不合理切分现象,使得词项更能反映图书语义信息。
在图书内容结构中不同层次的节点根据其对图书主题内容贡献程度不同而赋予不同权重,具体根据实验取题名(书名)、章、节、子节的权重比例为5:3:2:1,称之为文本结构权重。
本发明对传统的向量空间模型中仅考虑词项出现次数的频率函数tfi(d)进行改进,定义为词项ti在文档d中的信息量频率函数stfi(d):其中j=(1,…,n)代表词项ti在文档d中出现的次数,δj代表第j出的结构权重,M代表图书d中所有词项的个数,N为所有图书的数目,ni为含有词条的图书数目。得到图书内容结构的向量空间模型中词项权重计算公式(7)
w i = s t f i ( d ) log ( N n i + 0.1 ) Σ i = 1 n ( s t f i ( d ) ) 2 * log 2 ( N n i + 0.1 ) - - - ( 7 )
采用上述方法可以计算出图书内容结构调整的文本向量空间。每一本图书内容都可以处理成一个向量:
V4=(t1,w1(d);...;tn,wn(d))
步骤(7)用上述步骤(5)所得向量V3中关键词对图书数据库进行检索,将检索得到的图书排序输出。
用户意图语句经过本体和图书内容结构得到语义关联向量v3,图书内容经过结构关联并用向量空间模型表示,得到图书内容向量v4,将v3、v4做余弦相似度计算,S代表检索到的图书与用户检索意图之间的相关度,S值越大代表图书越符合用户的查询意图,见公式(8)
S = c o s θ V 3 * V 4 = Σ k = 1 n w k ( q ) * w k ( d i ) ( Σ k = 1 n wk 2 ( q ) ) ( Σ k = 1 n wk 2 ( d i ) ) - - - ( 8 )
以上是本发明对优选实施例的详细说明,但是本领域的普通技术人员应该意识到,在本发明范围内和精神指导下,各种改进添加和替换都是可能的,这些都在本发明权利要求所限定的保护范围内。

Claims (7)

1.一种基于内容结构的图书语义检索方法,其特征在于包括以下步骤:
步骤(1)用户输入检索语句经过领域词典预处理得到若干关键词,对上述关键词进行同义词词典扩展,得到初始检索词集;
步骤(2)检索词集经过领域本体进行语义关联度计算扩展得到语义关联检索词集;
步骤(3)选取步骤(1)检索词集的各个检索词,对图书数据库进行检索,得到用户意图的图书集;
步骤(4)对用户意图图书集中各图书书名、目录用树状结构进行描述,本文定义为内容结构,其中根节点是书名节点;
计算映射到的节点与其他节点的结构关联度,并对叶子节点信息进行基于领域本体的语义扩展,生成结构关联向量;
步骤(5)对经过领域本体关联和经过内容结构关联的向量进行向量融合,最后选取融合后的向量阈值在设定范围内的关键词作为用户意图检索关键词;
步骤(6)经过语义关联处理后的向量关键词对图书数据库进行检索,结合向量空间模型,通过计算内容语义关联向量和图书向量空间模型表示的向量的余弦相似度,将检索到的图书排序输出。
2.根据权利要求1所述的方法,其特征在于:所述步骤(1)进一步包括:分析提取领域知识的概念,经过专家参与构建领域词典,用户输入的检索语句在领域词典参与下进行中文分词,并进行同义词扩展得到关键词集,作为用户初始检索关键词集,参与后续的语义关联、结构关联。
3.根据权利要求1所述的方法,其特征在于:所述步骤(2)分析提取领域知识的概念、实例、关系构建领域本体;
检索词集在上述领域本体中映射,并根据语义相似度、相关度算法,进行语义关联;
如果不同关键词经过领域本体语义关联到同一个概念,则权重取最大的权值。
4.根据权利要求1所述的方法,其特征在于:所述步骤(3)进一步包括:领域词典参与图书中文分词,并对图书数据库建立索引,将用户检索词集的各个关键词分别在索引中检索,获得包含用户检索关键词的图书集的前N本,服务于下一步内容结构关联。
5.根据权利要求1所述的方法,其特征在于:所述步骤(4)进一步包括:对步骤(3)所得图书集中各图书书名、目录用树状结构进行存储,本文定义为内容结构,其中根节点是书名节点;
计算映射到的节点与其他节点的结构关联度,并对叶子节点信息进行基于领域本体的语义扩展,将其子概念加入,生成结构语义关联向量。
6.根据权利要求1所述的方法,其特征在于:所述步骤(5)进一步包括:对经过领域本体语义关联和内容结构关联的向量进行一定策略的向量融合,仅通过语义关联导致关联过范、仅经过内容结构关联导致的关联过窄,因为目录虽然是图书主要内容的代表,但是仅仅是浓缩的表达,有许多相关的重要概念都出现在图书内容中而非目录中,所以仅经过内容结构关联会带来概念遗漏问题;
融合策略可以使同时在领域本体和内容结构中关联度都大的词语权重更大,仅在其中一个中出现的词语关联度弱化,最后选取融合后的向量阈值在一定范围内的关键词作为用户意图检索关键词。
7.根据权利要求1所述的方法,其特征在于:所述步骤(6)进一步包括:经过语义关联处理后的向量关键词对图书数据库进行检索,在图书内容结构中不同层次的节点根据其对图书主题内容贡献程度不同而赋予不同权重,结合向量空间模型,通过计算内容语义关联向量和图书向量空间模型表示的向量的余弦相似度,将检索到的图书排序输出。
CN201510600565.8A 2015-09-19 2015-09-19 一种基于内容结构的图书语义检索方法 Active CN105117487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510600565.8A CN105117487B (zh) 2015-09-19 2015-09-19 一种基于内容结构的图书语义检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510600565.8A CN105117487B (zh) 2015-09-19 2015-09-19 一种基于内容结构的图书语义检索方法

Publications (2)

Publication Number Publication Date
CN105117487A true CN105117487A (zh) 2015-12-02
CN105117487B CN105117487B (zh) 2018-11-16

Family

ID=54665475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510600565.8A Active CN105117487B (zh) 2015-09-19 2015-09-19 一种基于内容结构的图书语义检索方法

Country Status (1)

Country Link
CN (1) CN105117487B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868366A (zh) * 2016-03-30 2016-08-17 浙江工业大学 基于概念关联的概念空间导航方法
CN105955993A (zh) * 2016-04-19 2016-09-21 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN106776714A (zh) * 2016-11-21 2017-05-31 辽宁工程技术大学 检索方法、装置和系统
CN107885718A (zh) * 2016-09-30 2018-04-06 腾讯科技(深圳)有限公司 语义确定方法及装置
CN107885749A (zh) * 2016-09-30 2018-04-06 南京理工大学 本体语义扩展与协同过滤加权融合的工艺知识检索方法
CN108694198A (zh) * 2017-04-10 2018-10-23 富士通株式会社 信息收集设备和信息收集方法
CN109033132A (zh) * 2018-06-05 2018-12-18 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN109214004A (zh) * 2018-09-06 2019-01-15 广州知弘科技有限公司 基于机器学习的大数据处理方法
CN109388793A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109460449A (zh) * 2018-09-06 2019-03-12 广州知弘科技有限公司 并行化数据分析方法
WO2019085236A1 (zh) * 2017-10-31 2019-05-09 北京小度信息科技有限公司 检索意图识别方法、装置、电子设备及可读存储介质
CN110458658A (zh) * 2019-07-31 2019-11-15 西安工程大学 一种基于语义信息的图书检索推荐方法
CN110555154A (zh) * 2019-08-30 2019-12-10 北京科技大学 一种面向主题的信息检索方法
CN111291168A (zh) * 2018-12-07 2020-06-16 北大方正集团有限公司 图书检索方法、装置及可读存储介质
CN111540353A (zh) * 2020-04-16 2020-08-14 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN115630154A (zh) * 2022-12-19 2023-01-20 竞速信息技术(廊坊)有限公司 一种面向大数据环境的动态摘要信息构建方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
US20090077094A1 (en) * 2007-09-17 2009-03-19 Yan Bodain Method and system for ontology modeling based on the exchange of annotations
CN102567409A (zh) * 2010-12-31 2012-07-11 珠海博睿科技有限公司 一种提供检索关联词的方法及装置
CN103593339A (zh) * 2013-11-29 2014-02-19 哈尔滨工业大学深圳研究生院 面向电子图书的语义空间表示方法及系统
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
US20090077094A1 (en) * 2007-09-17 2009-03-19 Yan Bodain Method and system for ontology modeling based on the exchange of annotations
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN102567409A (zh) * 2010-12-31 2012-07-11 珠海博睿科技有限公司 一种提供检索关联词的方法及装置
CN103593339A (zh) * 2013-11-29 2014-02-19 哈尔滨工业大学深圳研究生院 面向电子图书的语义空间表示方法及系统
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨海南: "基于语义词典和局部分析的查询扩展研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868366A (zh) * 2016-03-30 2016-08-17 浙江工业大学 基于概念关联的概念空间导航方法
CN105868366B (zh) * 2016-03-30 2019-02-01 浙江工业大学 基于概念关联的概念空间导航方法
CN105955993A (zh) * 2016-04-19 2016-09-21 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN107885718B (zh) * 2016-09-30 2020-01-24 腾讯科技(深圳)有限公司 语义确定方法及装置
CN107885718A (zh) * 2016-09-30 2018-04-06 腾讯科技(深圳)有限公司 语义确定方法及装置
CN107885749A (zh) * 2016-09-30 2018-04-06 南京理工大学 本体语义扩展与协同过滤加权融合的工艺知识检索方法
CN107885749B (zh) * 2016-09-30 2022-01-11 南京理工大学 本体语义扩展与协同过滤加权融合的工艺知识检索方法
CN106776714A (zh) * 2016-11-21 2017-05-31 辽宁工程技术大学 检索方法、装置和系统
CN108694198A (zh) * 2017-04-10 2018-10-23 富士通株式会社 信息收集设备和信息收集方法
CN109388793A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109388793B (zh) * 2017-08-03 2023-04-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
WO2019085236A1 (zh) * 2017-10-31 2019-05-09 北京小度信息科技有限公司 检索意图识别方法、装置、电子设备及可读存储介质
CN109033132A (zh) * 2018-06-05 2018-12-18 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN109033132B (zh) * 2018-06-05 2020-12-11 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN109460449A (zh) * 2018-09-06 2019-03-12 广州知弘科技有限公司 并行化数据分析方法
CN109214004A (zh) * 2018-09-06 2019-01-15 广州知弘科技有限公司 基于机器学习的大数据处理方法
CN111291168A (zh) * 2018-12-07 2020-06-16 北大方正集团有限公司 图书检索方法、装置及可读存储介质
CN110458658A (zh) * 2019-07-31 2019-11-15 西安工程大学 一种基于语义信息的图书检索推荐方法
CN110555154A (zh) * 2019-08-30 2019-12-10 北京科技大学 一种面向主题的信息检索方法
CN111540353A (zh) * 2020-04-16 2020-08-14 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111540353B (zh) * 2020-04-16 2022-11-15 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN115630154A (zh) * 2022-12-19 2023-01-20 竞速信息技术(廊坊)有限公司 一种面向大数据环境的动态摘要信息构建方法及系统

Also Published As

Publication number Publication date
CN105117487B (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN105117487A (zh) 一种基于内容结构的图书语义检索方法
Boorugu et al. A survey on NLP based text summarization for summarizing product reviews
CN105488024B (zh) 网页主题句的抽取方法及装置
CN104537116B (zh) 一种基于标签的图书搜索方法
CN103593425B (zh) 基于偏好的智能检索方法及系统
Singh et al. Sentiment analysis of textual reviews; Evaluating machine learning, unsupervised and SentiWordNet approaches
US20080294628A1 (en) Ontology-content-based filtering method for personalized newspapers
Sun et al. The keyword extraction of Chinese medical web page based on WF-TF-IDF algorithm
CN103886099B (zh) 一种模糊概念的语义检索系统及方法
US8200671B2 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
US20100217742A1 (en) Generating A Domain Corpus And A Dictionary For An Automated Ontology
CN111104488B (zh) 检索和相似度分析一体化的方法、装置和存储介质
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎系统与方法
CN105117386A (zh) 一种基于图书内容结构的语义关联方法
CN108416008A (zh) 一种基于自然语言处理的bim产品数据库语义检索方法
CN109460477B (zh) 信息收集分类系统和方法及其检索和集成方法
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
Wang et al. CoRankBayes: Bayesian learning to rank under the co-training framework and its application in keyphrase extraction
CN101840438B (zh) 面向源文献元关键词的检索系统
Klink Query reformulation with collaborative concept-based expansion
Osanyin et al. A review on web page classification
Gupta et al. Document summarisation based on sentence ranking using vector space model
Ban et al. CICPV: A new academic expert search model
CN102033961A (zh) 一种开放式知识共享平台及其多义词展现方法
Baruah et al. Text summarization in Indian languages: a critical review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210507

Address after: Room 405, 6-8 Jiaogong Road, Xihu District, Hangzhou City, Zhejiang Province, 310013

Patentee after: Hangzhou Taoyi Data Technology Co.,Ltd.

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University