CN110990538B - 基于句级深度学习语言模型的语义模糊搜索的方法 - Google Patents

基于句级深度学习语言模型的语义模糊搜索的方法 Download PDF

Info

Publication number
CN110990538B
CN110990538B CN201911328556.2A CN201911328556A CN110990538B CN 110990538 B CN110990538 B CN 110990538B CN 201911328556 A CN201911328556 A CN 201911328556A CN 110990538 B CN110990538 B CN 110990538B
Authority
CN
China
Prior art keywords
semantic
language model
sentence
subtask
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911328556.2A
Other languages
English (en)
Other versions
CN110990538A (zh
Inventor
裴正奇
段必超
黄梓忱
朱斌斌
段朦丽
于秋鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Heidun Technology Co ltd
Original Assignee
Shenzhen Qianhai Heidun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Heidun Technology Co ltd filed Critical Shenzhen Qianhai Heidun Technology Co ltd
Priority to CN201911328556.2A priority Critical patent/CN110990538B/zh
Publication of CN110990538A publication Critical patent/CN110990538A/zh
Application granted granted Critical
Publication of CN110990538B publication Critical patent/CN110990538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于句级深度学习语言模型的语义模糊搜索的方法。本发明中,本发明模糊程度高,本发明引入了深度学习语言模型,充分的考虑了语义问题,可以将与目标语句语义相似度高的语句检索出来,并且使用分层计算语义相似度的方式高效的判断语句之间的语义相似度大小;运算速度快,使用了向量化处理代替常规的循环遍历处理文本的方式,确保了每个语义匹配任务单元能够并行处理,极大提高了搜索速度;搜索查全率高,利用蕴含指数,使得系统对语法干扰的鲁棒性更好,有效提升了搜索的查全率;系统灵活,本发明将语义理解、模糊查询、信息精准定位等机制进行融合,然后将整个算法模块进行了接口封装,方便用户调用。

Description

基于句级深度学习语言模型的语义模糊搜索的方法
技术领域
本发明涉及深度学习语言模型与模糊搜索的相关领域,尤其涉及基于句级深度学习语言模型的语义模糊搜索的方法。
背景技术
语言模型应用广泛,早在上世纪70年代统计语言模型在应用上就已经获得了成功,2003年,有学者提出了将词向量(word vector)的概念引用到基于神经网络的语言模型中,但这种模型的参数较多,训练比较复杂;2010年,有学者提出了将循环神经网络(Recurrent Neural Network)应用到语言模型种,从此开启了深度学习在语言模型种的广泛使用,再到后来相继出现了一系列优秀的语言模型,比如:ELMO(Embedding fromLanguage Models)模型、Transformer模型以及BERT(Bidirectional EncoderRepresentations from Transformer)模型等。文本的模糊搜索应用在很多地方,模糊搜索需要使用到文本匹配算法,最初对于文本的匹配主要是使用BF(Brute Force)、RK(Robin-Karp)、KMP(Knuth-Morris-Pratt)、BM(Boyer Moore)等算法进行字符的精准匹配,也就是在文本信息中找到与关键词完全一样的字符串才算匹配成功,这样的方式没有考虑到语义信息,不能完成模糊匹配的任务。对文本进行模糊匹配,即字符串模糊匹配,主要的方法有位向量方法、过滤方法等等,应用位向量方法时,需要大量的空间,对于内存小的微型计算机,比如嵌入式系统,这将会是一个问题。
当前的文本模糊搜索存在以下缺点:
1、当前的文本模糊搜索多数都不能解决文本的语义理解问题,这样使得搜索的查全率较低,因为如果不考虑语义理解问题,很多意思相同但是语言结构不同的文本不能被匹配出来;
2、当前的文本模糊搜索多数效率都比较低,对于在比较长的文本中进行关键词或关键语句搜索时,由于会使用到比较暴力的方式对文本进行处理,导致效率比较低;
3、当前的文本模糊搜索在对文本做语义理解分析时,不能很好的解决在文本中上下文导致关键词或关键语句发生语义偏移的问题,从而会使得搜索的查全率降低,而且在分析语义相似度时,采用的都是比较单一的相似度度量指标,不能精准的计算出语义之间的相似度,即不能高效的衡量语义之间的相关性。
为此,我们提出了基于句级深度学习语言模型的语义模糊搜索的方法。
发明内容
本发明的目的在于提供基于句级深度学习语言模型的语义模糊搜索的方法,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明采用了如下技术方案:
基于句级深度学习语言模型的语义模糊搜索的方法,包括以下步骤:
S1、搭建应用场景,给定长文本S,查询句Q,需要在S中查询与Q最相关的字符串;
S2、搭建语言模型库,训练或直接调用经过预训练的句级深度学习语言模型,并将其运作机制统一调整;
S3、设置自定义终止符接口,由使用者对期望的终止符进行设置,再根据这些终止符对长文本S进行任务分割,得到针对S的亚任务组{S1,S2,S3,…Sk},并将完成分割的文本单元进行向量化处理,并为之配备常用的GPU加速配置;
S4、调用已整理完毕的语言模型,对经过向量化处理的长文本进行语义特征高维向量的生成,包括对查询句Q进行同样的运算处理,最终得到查询句Q、各个亚任务Si的囊括其自身语义特征的高维向量,并将其运算结果作为储存内容,各亚任务作为索引,储存在语义特征库里,等候进一步处理;
S5、调取查询句Q的语义特征高维向量Qvec,分别调取语义特征库里储存的亚任务的语义特征高维向量Sivec,对Qvec与Sivec做如下运算得到Si与Q的语义相似度Ci:
Figure GDA0003454801650000031
S6、针对各个亚任务,结合查询句Q的特征,计算各个亚任务Si所对应的蕴含指数Li:
Figure GDA0003454801650000032
S7、对各亚任务Si的语义相似度Ci与蕴含指数Li进行数值相乘运算,得到关于Si的综合指数Gi,并根据Gi对各亚任务进行排序,选取综合指数最高的一部分亚任务进入细化定位模块;
S8、依次对进入细化定位模块的亚任务进行长度判断,设定最大长度偏差容忍值delta,若某亚任务字符串的长度小于Q的长度加delta,则该亚任务以(Si,Ci)的形式直接进入备选库,否则,需对该亚任务进行分层拆分处理;
S9、分层拆分处理相当于对某字符串逐次划分为与目标字符串长度接近的小字符串,再对此进行相似度计算;
S10、在备选库中,不可出现多个同属于一个亚任务的储存单元;
S11、对备选库中的储存单元(Sx,Cx)根据其Cx进行排序,并输出,得到长文本S中所包含的针对查询文本Q的语义片段;
S12、对S1至S11进行模块封装处理,并配备相应的多线程运算机制,得到专属的接口产品,其输入参数包括:长文本S、查询文本Q、自定义终止符。
优选地,所述S2中的将其运作机制统一调整包括:接收字符串作为输入,进行解码得到此字符串的语义特征作为高维向量输出。
优选地,所述S4中的维度量范围在500-1000之间。
优选地,所述S5中的运算方式还可以采用向量化运算。
优选地,所述Li的运算包括Q与Si作为输入条件,输出为取值范围1-2的数值。
优选地,所述语言模型为谷歌开源bert语言模型。
优选地,所述S12中其输出参数为以如下形式作为构成单元的组合:[ri,Si,Ci]。
优选地,所述ri代表该单元所对应的Ci在所有单元中的数值排名。
与现有技术相比,本发明具有以下有益效果:
1、模糊程度高,本发明引入了深度学习语言模型,充分的考虑了语义问题,可以将与目标语句语义相似度高的语句检索出来,并且使用分层计算语义相似度的方式高效的判断语句之间的语义相似度大小;
2、运算速度快,使用了向量化处理代替常规的循环遍历处理文本的方式,确保了每个语义匹配任务单元能够并行处理,极大提高了搜索速度;
3、搜索查全率高,利用蕴含指数,使得系统对语法干扰的鲁棒性更好,有效提升了搜索的查全率;
4、系统灵活,本发明将语义理解、模糊查询、信息精准定位等机制进行融合,然后将整个算法模块进行了接口封装,方便用户调用。
附图说明
图1为本发明提出的基于句级深度学习语言模型的语义模糊搜索的方法的方法流程示意图;
图2为本发明提出的基于句级深度学习语言模型的语义模糊搜索的方法的方法流程示意图;
图3为本发明提出的基于句级深度学习语言模型的语义模糊搜索的方法的方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,本发明还提出了基于句级深度学习语言模型的语义模糊搜索的方法,包括以下步骤:
S1、搭建应用场景,给定长文本S,查询句Q,需要在S中查询与Q最相关的字符串;
S2、搭建语言模型库,训练或直接调用经过预训练的句级深度学习语言模型,例如:ELMo(Embeddings from Language Models)、BERT(Bidirectional EncoderRepresentations from Transformers)等,并将其运作机制统一调整;
S3、设置自定义终止符接口,由使用者对期望的终止符进行设置,再根据这些终止符对长文本S进行任务分割,得到针对S的亚任务组{S1,S2,S3,…Sk},并将完成分割的文本单元进行向量化处理,并为之配备常用的GPU加速配置;
S4、调用已整理完毕的语言模型,对经过向量化处理的长文本进行语义特征高维向量的生成,包括对查询句Q进行同样的运算处理,最终得到查询句Q、各个亚任务Si的囊括其自身语义特征的高维向量,并将其运算结果作为储存内容,各亚任务作为索引,储存在语义特征库里,等候进一步处理;
S5、调取查询句Q的语义特征高维向量Qvec,分别调取语义特征库里储存的亚任务的语义特征高维向量Sivec,对Qvec与Sivec做如下运算得到Si与Q的语义相似度Ci:
Figure GDA0003454801650000061
S6、针对各个亚任务,结合查询句Q的特征,计算各个亚任务Si所对应的蕴含指数Li:Li=f(Q,Si);其具体运算方法有多种,大致思路为:对于与查询句Q的语义相似度基本一致的两个亚任务Si与Sj,意味着Ci和Cj的值相差较小,在句法层面(如句子长度、句子结构)上,若Si与Q差异度比Sj与Q的差异度更大,基于Ci和Cj的值相差较小,则越应该赋予Si更高的蕴含指数,因为其意味着,从句法角度来看,即使Si本身比Sj更具有劣势,Si仍能取得与Sj不相上下的语义相似度,这说明Si内部包含与Q语义相似度很高的字符串的概率会高于Sj。某一特定的具体运算例如下:
Figure GDA0003454801650000071
S7、对各亚任务Si的语义相似度Ci与蕴含指数Li进行数值相乘运算,得到关于Si的综合指数Gi,并根据Gi对各亚任务进行排序,选取综合指数最高的一部分亚任务进入细化定位模块;
S8、依次对进入细化定位模块的亚任务进行长度判断,设定最大长度偏差容忍值delta,若某亚任务字符串的长度小于Q的长度加delta,则该亚任务以(Si,Ci)的形直接进入备选库,否则,需对该式亚任务进行分层拆分处理;
S9、分层拆分处理相当于对某字符串逐次划分为与目标字符串长度接近的小字符串,再对此进行相似度计算;
S10、在备选库中,不可出现多个同属于一个亚任务的储存单元;
S11、对备选库中的储存单元(Sx,Cx)根据其Cx进行排序,并输出,得到长文本S中所包含的针对查询文本Q的语义片段,在备选库的储存单元中,各个Sx于长文本S中的具体定位信息同样已被储存,在此为方便描述,进行省略;
S12、对S1至S11进行模块封装处理,并配备相应的多线程运算机制,得到专属的接口产品,其输入参数包括:长文本S、查询文本Q、自定义终止符。
其中,S9相似度计算包括给定需要进行分层拆分处理的亚任务Si,给定目标字符串(即查询文本)Q,则需将Si分拆为:Si[0:len(Q)+delta],Si[delta,len(Q)+2*delta],Si[2*delta:len(Q)+3*delta],…;设分拆后的字符串分别为:Si1,Si2,Si3,…;接下来再将{Si1,Si2,Si3,…}进行向量化处理,并送往语言模型库,得到其对应的语义特征高维向量:Si1_vec,Si2_vec,…;再分别将这些向量与Q所对应的语义特征高维向量进行与S5一致的语义相似度计算,得到各个分拆后的字符串Sij与Q的语义相似度Cij,并将各个(Sij,Cij)作为储存单元进入备选库。
其中,S2中的将其运作机制统一调整包括:接收字符串作为输入,进行解码得到此字符串的语义特征作为高维向量输出。
其中,S4中的维度量范围在500-1000之间。
其中,S5中的运算方式还可以采用向量化运算。
其中,Li的运算包括Q与Si作为输入条件,输出为取值范围1-2的数值。
其中,语言模型为谷歌开源bert语言模型。
其中,S12中其输出参数为以如下形式作为构成单元的组合:[ri,Si,Ci]。
其中,ri代表该单元所对应的Ci在所有单元中的数值排名。
实施例
本发明中,借助句级深度学习语言模型来解决模糊搜索场景的文本语义理解问题,并将其拓展到文本信息查询等场景,使之能够结合语义来进行模糊查询。利用自定义的终止符模式对长文本进行任务划分处理,有助于对长文本的深度学习运算进行向量化处理(Vectorization),代替常规的循环遍历处理方法,从而保证各个语义匹配任务单位能够并行处理,提高运算速率。有效解决片段字符在模糊搜索场景中被周边字符干扰的问题。若在长文本S中查询目标文本Q,且Q自身并非结构完整的语句;假设S中的两句子Si与Sj均与Q的相似度很高,其中,Sj略高于Si,已知,Sj中包含与Q相似度极高的字符串片段Sg,即Si=Sa+Sg+Sb,但因为Sa与Sb的存在,导致Sg所在的Si并没有比Sj更有优势。该发明提出一种结合蕴含指数的方法,能够高效避免诸如Sa与Sb这种类型的字符干扰项。同时该发明提出一种能够结合分层计算语义相似度的方式来精准定位长文本S中与Q相关的目标字符串。本发明将语义理解、模糊查询、信息精准定位等机制进行融合,得到一种高效灵活的开放式接口产品。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.基于句级深度学习语言模型的语义模糊搜索的方法,其特征在于,包括以下步骤:
S1、搭建应用场景,给定长文本S,查询句Q,需要在S中查询与Q最相关的字符串;
S2、搭建语言模型库,训练或直接调用经过预训练的句级深度学习语言模型,并将其运作机制统一调整;
S3、设置自定义终止符接口,由使用者对期望的终止符进行设置,再根据这些终止符对长文本S进行任务分割,得到针对S的亚任务组{S1,S2,S3,…Sk},并将完成分割的文本单元进行向量化处理,并为之配备常用的GPU加速配置;
S4、调用已整理完毕的语言模型,对经过向量化处理的长文本进行语义特征高维向量的生成,包括对查询句Q进行同样的运算处理,最终得到查询句Q、各个亚任务Si的囊括其自身语义特征的高维向量,并将其运算结果作为储存内容,各亚任务作为索引,储存在语义特征库里,等候进一步处理;
S5、调取查询句Q的语义特征高维向量Qvec,分别调取语义特征库里储存的亚任务的语义特征高维向量Sivec,对Qvec与Sivec做如下运算得到Si与Q的语义相似度Ci:
Figure FDA0003454801640000011
S6、针对各个亚任务,结合查询句Q的特征,计算各个亚任务Si所对应的蕴含指数Li:
Figure FDA0003454801640000012
S7、对各亚任务Si的语义相似度Ci与蕴含指数Li进行数值相乘运算,得到关于Si的综合指数Gi,并根据Gi对各亚任务进行排序,选取综合指数最高的一部分亚任务进入细化定位模块;
S8、依次对进入细化定位模块的亚任务进行长度判断,设定最大长度偏差容忍值delta,若某亚任务字符串的长度小于Q的长度加delta,则该亚任务以(Si,Ci)的形式直接进入备选库,否则,需对该亚任务进行分层拆分处理;
S9、分层拆分处理相当于对某字符串逐次划分为与目标字符串长度接近的小字符串,再对此进行相似度计算;
S10、在备选库中,不可出现多个同属于一个亚任务的储存单元;
S11、对备选库中的储存单元(Sx,Cx)根据其Cx进行排序,并输出,得到长文本S中所包含的针对查询文本Q的语义片段;
S12、对S1至S11进行模块封装处理,并配备相应的多线程运算机制,得到专属的接口产品,其输入参数包括:长文本S、查询文本Q、自定义终止符。
2.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法,其特征在于,所述S2中的将其运作机制统一调整包括:接收字符串作为输入,进行解码得到此字符串的语义特征作为高维向量输出。
3.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法,其特征在于,所述S4中的维度量范围在500-1000之间。
4.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法,其特征在于,所述S5中的运算方式还可以采用向量化运算。
5.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法,其特征在于,所述Li的运算包括Q与Si作为输入条件,输出为取值范围1-2的数值。
6.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法,其特征在于,所述语言模型为谷歌开源bert语言模型。
7.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法,其特征在于,所述S12中其输出参数为以如下形式作为构成单元的组合:[ri,Si,Ci],所述ri代表该单元所对应的Ci在所有单元中的数值排名。
CN201911328556.2A 2019-12-20 2019-12-20 基于句级深度学习语言模型的语义模糊搜索的方法 Active CN110990538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911328556.2A CN110990538B (zh) 2019-12-20 2019-12-20 基于句级深度学习语言模型的语义模糊搜索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911328556.2A CN110990538B (zh) 2019-12-20 2019-12-20 基于句级深度学习语言模型的语义模糊搜索的方法

Publications (2)

Publication Number Publication Date
CN110990538A CN110990538A (zh) 2020-04-10
CN110990538B true CN110990538B (zh) 2022-04-01

Family

ID=70074397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911328556.2A Active CN110990538B (zh) 2019-12-20 2019-12-20 基于句级深度学习语言模型的语义模糊搜索的方法

Country Status (1)

Country Link
CN (1) CN110990538B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948544B (zh) * 2021-02-25 2022-03-29 安徽农业大学 一种基于深度学习与质量影响的图书检索方法
CN117198505A (zh) * 2023-08-23 2023-12-08 深圳大学 一种用于临床医学决策辅助的深度学习语言模型微调方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065617A1 (ko) * 2009-11-27 2011-06-03 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN109325229A (zh) * 2018-09-19 2019-02-12 中译语通科技股份有限公司 一种利用语义信息计算文本相似度的方法
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法
CN110321925A (zh) * 2019-05-24 2019-10-11 中国工程物理研究院计算机应用研究所 一种基于语义聚合指纹的文本多粒度相似度比对方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069750B2 (en) * 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US10929218B2 (en) * 2018-05-16 2021-02-23 Nec Corporation Joint semantic and format similarity for large scale log retrieval

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065617A1 (ko) * 2009-11-27 2011-06-03 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN109325229A (zh) * 2018-09-19 2019-02-12 中译语通科技股份有限公司 一种利用语义信息计算文本相似度的方法
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法
CN110321925A (zh) * 2019-05-24 2019-10-11 中国工程物理研究院计算机应用研究所 一种基于语义聚合指纹的文本多粒度相似度比对方法

Also Published As

Publication number Publication date
CN110990538A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN113505209A (zh) 一种面向汽车领域的智能问答系统
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN110990538B (zh) 基于句级深度学习语言模型的语义模糊搜索的方法
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN115017266A (zh) 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备
CN116842126B (zh) 一种利用llm实现知识库精准输出的方法、介质及系统
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN111930953B (zh) 一种文本属性特征的识别、分类及结构分析方法及装置
CN111966810A (zh) 一种用于问答系统的问答对排序方法
CN112632250A (zh) 一种多文档场景下问答方法及系统
CN115273815A (zh) 语音关键词检测的方法、装置、设备及存储介质
US11822887B2 (en) Robust name matching with regularized embeddings
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN111581365A (zh) 一种谓词抽取方法
CN115858780A (zh) 一种文本聚类方法、装置、设备及介质
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN114692610A (zh) 关键词确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant