CN110188174B - 一种基于专业词汇挖掘的专业领域faq智能问答方法 - Google Patents

一种基于专业词汇挖掘的专业领域faq智能问答方法 Download PDF

Info

Publication number
CN110188174B
CN110188174B CN201910316908.6A CN201910316908A CN110188174B CN 110188174 B CN110188174 B CN 110188174B CN 201910316908 A CN201910316908 A CN 201910316908A CN 110188174 B CN110188174 B CN 110188174B
Authority
CN
China
Prior art keywords
professional
word
frequent
mining
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910316908.6A
Other languages
English (en)
Other versions
CN110188174A (zh
Inventor
吕明琪
张�浩
朱康钧
黄超
陈铁明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910316908.6A priority Critical patent/CN110188174B/zh
Publication of CN110188174A publication Critical patent/CN110188174A/zh
Application granted granted Critical
Publication of CN110188174B publication Critical patent/CN110188174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于专业词汇挖掘的专业领域FAQ智能问答方法,包括以下步骤:(1)频繁词挖掘与归并:基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词,并对同频候选频繁词进行归并,最终得到频繁词集;(2)频繁词过滤与验证:采用词法规则对频繁词进行过滤,采用互联网知识对频繁词进行验证,最终得到专业词汇集;(3)问题检索与答案返回:借助专业词汇集抽取实时问题关键词,在此基础上对历史问题进行全文检索和匹配度计算,最终返回匹配度最高的历史问题对应的答案。本发明提供了一种提高专业领域FAQ智能问答系统的服务质量的基于专业词汇挖掘的专业领域FAQ智能问答方法。

Description

一种基于专业词汇挖掘的专业领域FAQ智能问答方法
技术领域
本发明涉及数据挖掘和自然语言处理技术,具体涉及一种智能问答方法。
背景技术
智能问答系统可根据用户以自然语言形式输入的问句,返回最符合用户意图的文本信息。根据实现方式的不同,智能问答系统大致可分为基于信息检索的智能问答系统、基于阅读理解的智能问答系统、基于知识图谱的智能问答系统等。其中,基于信息检索的智能问答系统即FAQ智能问答系统,指在历史问答数据中检索得到最符合用户当前问题的答案。由于历史问答数据通常由领域专家提供,因此FAQ智能问答系统给出的答案质量较高,这种特性使得其较为适合面向专业领域的智能问答系统。
现有FAQ智能问答系统的主流实现技术为关键词检索,其主要流程如下:首先,从用户问题中抽取关键词。然后,基于关键词对历史问题进行全文检索。最后,对检索结果进行评分并返回评分最高的历史问题对应的答案。然而,现有方法没有充分考虑专业领域问答的特点。对于专业领域问题,其中包含的专业词汇对理解该问题具有关键的意义,但现有方法难以有效处理,主要表现在:首先,大多专业词汇不包含在通用词库里,因此分词算法难以正确的对包含专业词汇的问句进行分词,无法抽取高质量的专业领域关键词。其次,即使分词算法能够对专业词汇进行正确分割,系统也只是将专业词汇和普通词汇同等对待,无法体现专业词汇在结果评分中的重要性。因此,若能够有效的对专业词汇进行挖掘和抽取,可极大程度提高专业领域FAQ智能问答系统的服务质量。
发明内容
为了克服已有FAQ智能问答系统的服务质量较低的不足,本发明提供了一种提高专业领域FAQ智能问答系统的服务质量的基于专业词汇挖掘的专业领域FAQ智能问答方法。
本发明解决其技术问题所采用的技术方案是:
一种基于专业词汇挖掘的专业领域FAQ智能问答方法,包括以下步骤:
(1)频繁词挖掘与归并:基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词,并对同频候选频繁词进行归并,最终得到频繁词集;
(2)频繁词过滤与验证:采用词法规则对频繁词进行过滤,采用互联网知识对频繁词进行验证,最终得到专业词汇集;
(3)问题检索与答案返回:借助专业词汇集抽取实时问题关键词,在此基础上对历史问题进行全文检索和匹配度计算,最终返回匹配度最高的历史问题对应的答案。
进一步,所述步骤(1)中,给定专业领域文档集S,频繁词挖掘与归并的步骤如下:
(1-1)初始化:扫描S,寻找所有出现频次大于等于指定阈值min_sup的字,并以其中每个字作为根节点构造一颗树,初始化n=2;
(1-2)候选频繁词挖掘:基于N-Gram模型扫描S,寻找所有出现频次大于等于min_sup的长度为n的候选频繁词,得到候选频繁词集CWS;
(1-3)候选频繁词索引:若
Figure BDA0002033416140000021
则对其中每个候选频繁词cw,基于深度优先搜索在所有树中寻找路径对应cw[0:n-1]的一条分支,将字cw[n-1]插入该分支,并设置插入边的权重为cw的出现频次,然后n=n+1,转向步骤(1-2);反之,则转向步骤(1-4);
(1-4)候选频繁词归并:对每颗树进行深度优先搜索,若当前边的权重小于上一条边的权重,则输出根节点到当前边父节点构成的路径所对应的候选频繁词作为频繁词;若当前边的子节点为叶子节点,则输出整条路径对应的候选频繁词作为频繁词。
再进一步,所述步骤(2)中,设步骤(1)中最终得到的频繁词集为WS,频繁词过滤与验证的步骤如下:
(2-1)词性规则过滤:首先,对专业领域文档集S中的每个句子进行词性标注,然后,对WS中每个频繁词w,若S中所有出现的w均不是名词性短语,则从WS中删除w;
(2-2)词频规则过滤:首先,构造一个非本专业领域的一般性文档集NS,然后,对WS中每个频繁词w,计算w在NS中的出现频次,若该出现频次大于指定阈值,则从WS中删除w;
(2-3)互联网知识验证:对WS中每个频繁词w,在百度百科、CN-Probase等互联网知识库上进行检索,若任一互联网知识库中包含w,则保留w为专业词汇。
更进一步,所述步骤(3)中,设步骤(2)中最终得到的专业词汇集为TS,给定实时问题Q,问题检索与答案返回的步骤如下:
(3-1)实时问题预处理:首先,将TS加入分词词库,然后,对Q进行分词和去停用词处理;
(3-2)专业关键词抽取:首先,基于TextRank算法计算Q中每个词的重要度权值。然后,若Q中包含的专业词汇数量大于等于指定关键词数量k,则保留重要度权值最高的k个专业词汇,构造专业关键词集KT(Q),转向步骤(3-4);反之,则保留所有专业词汇,构造专业关键词集KT(Q),转向步骤(3-3);
(3-3)普通关键词抽取:从Q中包含的KT(Q)之外的词中挑选重要度权值最高的k-|KT(Q)|个词汇,构造普通关键词集KW(Q);
(3-4)全文检索:Q的最终关键词集K(Q)=KT(Q)∪KW(Q),基于Lucene全文检索引擎从历史问题库中检索至少包含K(Q)中一个词的所有历史问题,形成候选问题列表CQ(Q);
(3-5)匹配度计算:对CQ(Q)中每个候选问题CQ,计算其包含KT(Q)中词的数量n(CQ)和包含KW(Q)中词的数量m(CQ),然后对n(CQ)和m(CQ)进行加权求和,计算Q和CQ的匹配度,最终,返回匹配度最高的候选问题对应的答案。
优选的,所述(3-5)中,Q和CQ的匹配度由下述公式计算得到:
Figure BDA0002033416140000031
其中,α为专业关键词权重,β为普通关键词权重,β<α。
本发明的有益效果主要表现在:(1)基于子串挖掘和互联网知识对专业词汇进行挖掘,使得系统可更准确的理解问句。(2)利用专业词汇进行问题评分,使得系统可更有效的定位答案。
附图说明
图1为一种基于专业词汇挖掘的专业领域FAQ问答方法的流程图;
图2为频繁词挖掘与归并实施例图;
图3为问题检索与答案返回流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1`图3,一种基于专业词汇挖掘的专业领域FAQ问答方法,包括以下步骤:
(1)频繁词挖掘与归并:基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词,并对同频候选频繁词进行归并,最终得到频繁词集。
(2)频繁词过滤与验证:采用词法规则对频繁词进行过滤,采用互联网知识对频繁词进行验证,最终得到专业词汇集。
(3)问题检索与答案返回:借助专业词汇集抽取实时问题关键词,在此基础上对历史问题进行全文检索和匹配度计算,最终返回匹配度最高的历史问题对应的答案。
参照图2,所述步骤(1)中,给定具体实施例(专业领域文档集S={"ABCBC","ABCB","ACAC"},频繁词支持度阈值min_sup=2),频繁词挖掘与归并的步骤如下:
(1-1)初始化:扫描S,寻找所有出现频次大于等于min_sup的字,并以其中每个字作为根节点构造一颗树,初始化n=2;
(1-2)候选频繁词挖掘:基于N-Gram模型扫描S,寻找所有出现频次大于等于min_sup的长度为n的候选频繁词,得到候选频繁词集CWS;
(1-3)候选频繁词索引:若
Figure BDA0002033416140000041
则对其中每个候选频繁词cw,基于深度优先搜索在所有树中寻找路径对应cw[0:n-1]的一条分支,将字cw[n-1]插入该分支,并设置插入边的权重为cw的出现频次,然后n=n+1,转向步骤(1-2);反之,则转向步骤(1-4);
(1-4)候选频繁词归并:对每颗树进行深度优先搜索,若当前边的权重小于上一条边的权重,则输出根节点到当前边父节点构成的路径所对应的候选频繁词作为频繁词;若当前边的子节点为叶子节点,则输出整条路径对应的候选频繁词作为频繁词。
所述步骤(2)中,设步骤(1)中最终得到的频繁词集为WS,频繁词过滤与验证的步骤如下:
(2-1)词性规则过滤:首先,对专业领域文档集S中的每个句子进行词性标注,然后,对WS中每个频繁词w,若S中所有出现的w均不是名词性短语,则从WS中删除w;
(2-2)词频规则过滤:首先,构造一个非本专业领域的一般性文档集NS,然后,对WS中每个频繁词w,计算w在NS中的出现频次,若该出现频次大于指定阈值,则从WS中删除w;
(2-3)互联网知识验证:对WS中每个频繁词w,在百度百科、CN-Probase等互联网知识库上进行检索,若任一互联网知识库中包含w,则保留w为专业词汇。
所述步骤(3)中,设步骤(2)中最终得到的专业词汇集为TS,给定实时问题Q,问题检索与答案返回的步骤如下:
(3-1)实时问题预处理:首先,将TS加入分词词库。然后,对Q进行分词和去停用词处理;
(3-2)专业关键词抽取:首先,基于TextRank算法计算Q中每个词的重要度权值;然后,若Q中包含的专业词汇数量大于等于指定关键词数量k,则保留重要度权值最高的k个专业词汇,构造专业关键词集KT(Q),转向步骤(3-4);反之,则保留所有专业词汇,构造专业关键词集KT(Q),转向步骤(3-3);
(3-3)普通关键词抽取:从Q中包含的KT(Q)之外的词中挑选重要度权值最高的k-|KT(Q)|个词汇,构造普通关键词集KW(Q);
(3-4)全文检索:Q的最终关键词集K(Q)=KT(Q)∪KW(Q),基于Lucene全文检索引擎从历史问题库中检索至少包含K(Q)中一个词的所有历史问题,形成候选问题列表CQ(Q);
(3-5)匹配度计算:对CQ(Q)中每个候选问题CQ,计算其包含KT(Q)中词的数量n(CQ)和包含KW(Q)中词的数量m(CQ),则Q和CQ的匹配度由下述公式计算得到
Figure BDA0002033416140000051
其中,α为专业关键词权重,β为普通关键词权重,β<α;
最终,返回匹配度最高的候选问题对应的答案。

Claims (3)

1.一种基于专业词汇挖掘的专业领域FAQ智能问答方法,其特征在于,所述方法包 括以下步骤:
(1)频繁词挖掘与归并:基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词,并对同频候选频繁词进行归并,最终得到频繁词集;
(2)频繁词过滤与验证:采用词法规则对频繁词进行过滤,采用互联网知识对频繁词进行验证,最终得到专业词汇集;
(3)问题检索与答案返回:借助专业词汇集抽取实时问题关键词,在此基础上对历史问题进行全文检索和匹配度计算,最终返回匹配度最高的历史问题对应的答案;
所述步骤(1)中,给定专业领域文档集S,频繁词挖掘与归并的步骤如下:
(1-1)初始化:扫描S,寻找所有出现频次大于等于指定阈值min_sup的字,并以其中每个字作为根节点构造一颗树,初始化n=2;
(1-2)候选频繁词挖掘:基于N-Gram模型扫描S,寻找所有出现频次大于等于min_sup的长度为n的候选频繁词,得到候选频繁词集CWS;
(1-3)候选频繁词索引:若
Figure FDA0003042937580000011
则对其中每个候选频繁词cw,基于深度优先搜索在所有树中寻找路径对应cw[0:n-1]的一条分支,将字cw[n-1]插入该分支,并设置插入边的权重为cw的出现频次,然后n=n+1,转向步骤(1-2);反之,则转向步骤(1-4);
(1-4)候选频繁词归并:对每颗树进行深度优先搜索,若当前边的权重小于上一条边的权重,则输出根节点到当前边父节点构成的路径所对应的候选频繁词作为频繁词;若当前边的子节点为叶子节点,则输出整条路径对应的候选频繁词作为频繁词;
所述步骤(2)中,设步骤(1)中最终得到的频繁词集为WS,频繁词过滤与验证的步骤如下:
(2-1)词性规则过滤:首先,对专业领域文档集S中的每个句子进行词性标注,然后,对WS中每个频繁词w,若S中所有出现的w均不是名词性短语,则从WS中删除w;
(2-2)词频规则过滤:首先,构造一个非本专业领域的一般性文档集NS,然后,对WS中每个频繁词w,计算w在NS中的出现频次,若该出现频次大于指定阈值,则从WS中删除w;
(2-3)互联网知识验证:对WS中每个频繁词w,在互联网知识库上进行检索,若任一互联网知识库中包含w,则保留w为专业词汇。
2.如权利要求1所述的一种基于专业词汇挖掘的专业领域FAQ智能问答方法,其特征在于,所述步骤(3)中,设步骤(2)中最终得到的专业词汇集为TS,给定实时问题Q,问题检索与答案返回的步骤如下:
(3-1)实时问题预处理:首先,将TS加入分词词库,然后,对Q进行分词和去停用词处理;
(3-2)专业关键词抽取:首先,基于TextRank算法计算Q中每个词的重要度权值,然后,若Q中包含的专业词汇数量大于等于指定关键词数量k,则保留重要度权值最高的k个专业词汇,构造专业关键词集KT(Q),转向步骤(3-4);反之,则保留所有专业词汇,构造专业关键词集KT(Q),转向步骤(3-3);
(3-3)普通关键词抽取:从Q中包含的KT(Q)之外的词中挑选重要度权值最高的k-|KT(Q)|个词汇,构造普通关键词集KW(Q);
(3-4)全文检索:Q的最终关键词集K(Q)=KT(Q)∪KW(Q),基于Lucene全文检索引擎从历史问题库中检索至少包含K(Q)中一个词的所有历史问题,形成候选问题列表CQ(Q);
(3-5)匹配度计算:对CQ(Q)中每个候选问题CQ,计算其包含KT(Q)中词的数量n(CQ)和包含KW(Q)中词的数量m(CQ),然后对n(CQ)和m(CQ)进行加权求和,计算Q和CQ的匹配度,最终,返回匹配度最高的候选问题对应的答案。
3.如权利要求2所述的一种基于专业词汇挖掘的专业领域FAQ智能问答方法,其特征在于,所述(3-5)中,Q和CQ的匹配度由下述公式计算得到:
Figure FDA0003042937580000021
其中,α为专业关键词权重,β为普通关键词权重,β<α。
CN201910316908.6A 2019-04-19 2019-04-19 一种基于专业词汇挖掘的专业领域faq智能问答方法 Active CN110188174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910316908.6A CN110188174B (zh) 2019-04-19 2019-04-19 一种基于专业词汇挖掘的专业领域faq智能问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910316908.6A CN110188174B (zh) 2019-04-19 2019-04-19 一种基于专业词汇挖掘的专业领域faq智能问答方法

Publications (2)

Publication Number Publication Date
CN110188174A CN110188174A (zh) 2019-08-30
CN110188174B true CN110188174B (zh) 2021-10-29

Family

ID=67714759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910316908.6A Active CN110188174B (zh) 2019-04-19 2019-04-19 一种基于专业词汇挖掘的专业领域faq智能问答方法

Country Status (1)

Country Link
CN (1) CN110188174B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929027B (zh) * 2019-09-30 2022-08-12 珠海格力电器股份有限公司 提示系统、提示方法、计算机及废物容纳装置
CN111723286A (zh) * 2020-05-29 2020-09-29 北京明略软件系统有限公司 一种数据处理的方法及装置
CN112035623B (zh) * 2020-09-11 2023-08-04 杭州海康威视数字技术股份有限公司 智能问答方法、装置、电子设备及存储介质
CN113342953A (zh) * 2021-06-18 2021-09-03 北京理工大学东南信息技术研究院 一种基于多模型集成的政务问答方法
CN114547255A (zh) * 2022-03-10 2022-05-27 平安科技(深圳)有限公司 基于人工智能的会话提示方法、装置、存储介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079024A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种专业词表动态生成系统和方法
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法
KR20170062308A (ko) * 2015-11-27 2017-06-07 세종대학교산학협력단 상위 k 중요 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체
CN107783970A (zh) * 2016-08-25 2018-03-09 武汉聚蜗网络科技有限公司 一种专家问答系统及其操作方法
CN108255956A (zh) * 2017-12-21 2018-07-06 北京声智科技有限公司 基于历史数据及机器学习自适应获取词库的方法及系统
CN109614466A (zh) * 2018-11-15 2019-04-12 阿里巴巴集团控股有限公司 基于频繁集挖掘的关键词规则生成方法及其装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN102646100B (zh) * 2011-02-21 2016-02-24 腾讯科技(深圳)有限公司 领域词获取方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079024A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种专业词表动态生成系统和方法
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法
KR20170062308A (ko) * 2015-11-27 2017-06-07 세종대학교산학협력단 상위 k 중요 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체
CN107783970A (zh) * 2016-08-25 2018-03-09 武汉聚蜗网络科技有限公司 一种专家问答系统及其操作方法
CN108255956A (zh) * 2017-12-21 2018-07-06 北京声智科技有限公司 基于历史数据及机器学习自适应获取词库的方法及系统
CN109614466A (zh) * 2018-11-15 2019-04-12 阿里巴巴集团控股有限公司 基于频繁集挖掘的关键词规则生成方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Efficient Mining of Maximal Frequent Itemsets Based on M-Step Lookahead;Meyer, EL 等;《5TH INTERNATIONAL CONFERENCE ON DATA AND SOFTWARE ENGINEERING (ICODSE)》;20181108;第1-5页 *
基于统计学和语义信息的中文文本主题识别技术;冯晋 等;《清华大学学报(自然科学版)》;20051230;第45卷(第S1期);第1791-1794页,正文第1节 *

Also Published As

Publication number Publication date
CN110188174A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188174B (zh) 一种基于专业词汇挖掘的专业领域faq智能问答方法
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN109858028B (zh) 一种基于概率模型的短文本相似度计算方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
US10095692B2 (en) Template bootstrapping for domain-adaptable natural language generation
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
US20200073890A1 (en) Intelligent search platforms
CN111160014A (zh) 一种智能分词方法
CN108491407B (zh) 一种面向代码检索的查询扩展方法
KR101092354B1 (ko) 복합 명사 인식 장치 및 그 방법
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
US20230055769A1 (en) Specificity ranking of text elements and applications thereof
CN112735412B (zh) 一种根据语音指令搜索信息的方法和系统
US8862459B2 (en) Generating Chinese language banners
Ofoghi et al. A semantic approach to boost passage retrieval effectiveness for question answering
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
KR100745367B1 (ko) 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템
Al-Zyoud et al. Arabic stemming techniques: comparisons and new vision
CN112650838A (zh) 一种基于历史案件大数据的智能问答方法及系统
Lin et al. Domain Independent Key Term Extraction from Spoken Content Based on Context and Term Location Information in the Utterances

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant