CN114781379B - 一种获取关键短语的数据处理系统 - Google Patents

一种获取关键短语的数据处理系统 Download PDF

Info

Publication number
CN114781379B
CN114781379B CN202210710981.3A CN202210710981A CN114781379B CN 114781379 B CN114781379 B CN 114781379B CN 202210710981 A CN202210710981 A CN 202210710981A CN 114781379 B CN114781379 B CN 114781379B
Authority
CN
China
Prior art keywords
phrase
obtaining
key phrases
word
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210710981.3A
Other languages
English (en)
Other versions
CN114781379A (zh
Inventor
刘羽
傅晓航
常鸿宇
林方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202210710981.3A priority Critical patent/CN114781379B/zh
Publication of CN114781379A publication Critical patent/CN114781379A/zh
Application granted granted Critical
Publication of CN114781379B publication Critical patent/CN114781379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种获取关键短语的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:对初始文本进行处理,得到初始文本对应的语句列表;根据初始文本中每一初始词和预设短语配置表,确定出中间短语列表,将初始文本和每一中间短语分别输入至目标预训练语言模型中,获取初始文对应的目标词向量和每一中间短语对应的目标词向量,根据初始文对应的目标向和每一中间短语对应的目标词向量,获取中间短语列表对应的相似度列表,当中间短语对应的相似度不小于预设的相似度阈值时,确定中间短语为关键短语;本发明能够保证关键短语抽取更符合用户的需求,提高了用户的体验感。

Description

一种获取关键短语的数据处理系统
技术领域
本发明涉及短语抽取技术领域,尤其涉及一种获取关键短语的数据处理系统。
背景技术
为了提高人们浏览的效率,通常需要将文本中的关键信息确定出来,来简洁的表示文本。示例的,在进行视频推荐的时候,通常将视频标题中的短语或者词提取出来作为推荐内容,以简洁的表示视频的内容。由于短语的使用越来越多,因此,如何自动抽取关键短语成了一个研究热点。
现有技术中,在抽取关键短语的时候,是按照语法规则来抽取的。通常是将分词组合,使其满足特定的语法规则,例如,满足词性序列要求,然后将该组合确定为关键短语,但是在实际应用的生产环境中,尤其是对于无监督的垂直领域,许多关键短语抽取模型,例如,textrank,yake,autophrasex,UCphrase等关键短语抽取模型,无法实现可解释性和抽取结果的可控性,无法保证关键短语抽取更符合用户的需求,使得用户的体验感差。
发明内容
针对上述技术问题,本发明采用的技术方案为一种获取关键短语的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:预设短语配置列表和初始文本集A={A1,……,Ai,……,An},Ai是指第i个初始文本,i=1……n,n为初始文本数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100、对Ai进行处理,得到Ai对应的语句列表Bi={Bi1,……,Bir,……,
Figure 661465DEST_PATH_IMAGE002
},Bir= {B1 ir,……Bj ir,……,Bm ir},Bj ir是指Ai中第r个语句的第j个初始词语,j=1……m,m是指Ai中 第r个语句对应的初始词语数量;
S200、根据Bj ir和预设短语配置表,确定出中间短语列表Di={Di1,……,Dir,……,
Figure 155769DEST_PATH_IMAGE004
},Dir是指第r个中间短语,r=1……si,si为是指Ai对应的中间短语数量;
S300、将Ai和Dir分别输入至目标预训练语言模型中,获取Ai对应的目标词向量Hi=(Hi1,……,Hit,……,Hik)和Dir对应的目标词向量Gir=(G1 ir,……,Gt ir,……,Gk ir),Hit是指Ai对应的第t位的bit值,Gt ir是指Dir对应的第t位的bit值,t=1……k,k为预训练语言模型对应的向量bit位个数;
S400、根据Hi和Gir,获取Di对应的第一相似度列表Fi={Fi1,……,Fir,……,
Figure 997823DEST_PATH_IMAGE006
}, Fir是指Ai与Dir之间的第一相似度,Fir符合如下条件:
Figure 206082DEST_PATH_IMAGE008
S500、Fir≥预设的相似度阈值时,确定Fir对应的中间短语为关键短语且对关键短语进行排序,获取关键短语列表。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种获取关键短语的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明的一种获取关键短语的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,所述数据库包括:预设短语配置列表和初始文本集,当所述计算机程序被处理器执行时,实现以下步骤:对初始文本进行处理,得到初始文本对应的语句列表;根据初始文本中每一初始词和预设短语配置表,确定出中间短语列表,将初始文本和每一中间短语分别输入至目标预训练语言模型中,获取初始文对应的目标词向量和每一中间短语对应的目标词向量,根据初始文对应的目标向和每一中间短语对应的目标词向量,获取中间短语列表对应的相似度列表,遍历相似度列表且中间短语对应的相似度不小于预设的相似度阈值时,确定中间短语为关键短语且对关键短语进行排序,获取关键短语列表;能够实现可解释性和抽取结果的可控性,保证关键短语抽取更符合用户的需求,提高了用户的体验感。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种获取关键短语的数据处理系统的执行计算机程序的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本实施例提供了一种获取关键短语的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:预设短语配置列表和初始文本集A={A1,……,Ai,……,An},Ai是指第i个初始文本,i=1……n,n为初始文本数量,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、对Ai进行处理,得到Ai对应的语句列表Bi={Bi1,……,Bir,……,
Figure 82771DEST_PATH_IMAGE009
},Bir= {B1 ir,……Bj ir,……,Bm ir},Bj ir是指Ai中第r个语句的第j个初始词语,j=1……m,m是指Ai中 第r个语句对应的初始词语数量。
具体地,对Ai进行处理为分词处理,本领域技术人员可以采取现有技术中任一分词方法,在此不再赘述。
具体地,A中每一Ai对应的领域均一致,能够保证权重值的准确性,进一步通过权重值,准确地确定出的关键短语。
S200、根据Bj ir和用户输入的短语构建条件,确定出中间短语列表Di={Di1,……, Dir,……,
Figure 219747DEST_PATH_IMAGE010
},Dir是指第r个中间短语,r=1……si,si为是指Ai对应的中间短语数量。
具体地,在S100步骤中,Bir的排序是按照每一Bj ir的分词顺序进行排序的,能够有利于通过初始词组成关键短语。
具体地,在S200步骤中还包括如下步骤:
S201、获取Bj ir对应的词类型,其中,每一Bj ir对应的词类型通过分词处理可以获取,在此不再赘述。
S203、根据Bir中每一Bj ir对应的词类型与用户输入的短语构建条件,确定出中间短语;可以理解为:根据用户输入的短语构建条件,将Bir中Bj ir进行重新组合,生成中间短语,例如,用户输入的短语构建条件为基于词语的类型构成为:引号+名词+引号+若干名词;能够从一段语句中删除用户不需要的词,保证关键短语抽取更符合用户的需求,提高了用户的体验感。
S300、将Ai和Dir分别输入至目标预训练语言模型中,获取Ai对应的目标词向量Hi=(Hi1,……,Hit,……,Hik)和Dir对应的目标词向量Gir=(G1 ir,……,Gt ir,……,Gk ir),Hit是指Ai对应的第t位的bit值,Gt ir是指Dir对应的第t位的bit值,t=1……k,k为预训练语言模型对应的向量bit位个数。
具体地,对预训练语言模型进行训练,得到目标预训练语言模型,训练预训练语言模型的方法包括:mask language model方法和SimCSE方法,本领域技术人员可以采取masklanguage model方法或SimCSE方法训练预训练语言模型的过程,在此不再赘述,其中,本领域技术人员可以根据需求确定预训练语言模型,例如,预训练语言模型为Bert模型或者sentence-transformer模型等。
优选地,在本实施例中预训练语言模型为Bert模型,通过Bert模型,能够更加便利的确定出词向量。
具体地,在S300步骤中还通过如下步骤确定Gir
S301、获取Dir对应的词语列表Cir={C1 ir,……,Cx ir,……,Cp ir},其中,Cx ir是指Dir对应的第x个初始词语,x=1……p,p为Dir对应的初始词语数量;
S303、将Cx ir输入至目标预训练语言模型中,获取Cx ir对应的中间词向量Ux ir=(Ux1 ir,……,Uxt ir,……,Uxk ir),Uxt ir是指Cx ir对应的第t位的bit值;
S305、根据Ux ir,获取Gt ir,Gt ir符合如下条件:
Figure 549098DEST_PATH_IMAGE012
,其中,Wx ir是Cx ir对应的权重值。
进一步地,在S305步骤中还通过如下步骤确定Wx ir
S3051、从A中获取Cx ir对应的第一词数Vx ir和第二词数Lx ir
具体地,Vx ir是指Cx ir在Ai中出现的次数。
具体地,Lx ir是指Cx ir在A中出现的次数。
S3053、根据Vx ir和Lx ir,确定出Cx ir对应的词频Zx ir,Zx ir符合条件如下:
Figure 826626DEST_PATH_IMAGE014
S3055、根据Zx ir,获取Wx ir,Wx ir符合条件如下:
Figure 823401DEST_PATH_IMAGE016
上述,通过任一初始词的词频确定出该词对应的权重值,能够使得在关键短语中更倾向权重值高的词,进而基于初始词,准确的构建关键短语,便于保证关键短语抽取更符合用户的需求,提高了用户的体验感。
S400、根据Hi和Gir,获取Di对应的第一相似度列表Fi={Fi1,……,Fir,……,
Figure 393929DEST_PATH_IMAGE018
}, Fir是指Ai与Dir之间的第一相似度,Fir符合如下条件:
Figure 226887DEST_PATH_IMAGE020
S500、Fir≥预设的相似度阈值时,确定Fir对应的中间短语为关键短语且对关键短语进行排序,获取关键短语列表,其中,本领域技术人员根据实际需求设置相似度阈值,在此不再赘述。
在一个具体的实施例中,还通过包括如下步骤确定关键短语:
S1、根据Hi和Gir,获取Di对应的第二相似度列表F'i={F'i1,……,F'ir,……,
Figure 291795DEST_PATH_IMAGE021
}, F'ir符合如下条件:
Figure 395273DEST_PATH_IMAGE023
S2、Fir≥预设的相似度阈值时,确定Fir对应的中间短语为第一目标短语且基于第一目标短语,构建成第一目标短语列表Y。
S3、F'ir≥预设的相似度阈值时,确定F'ir对应的中间短语为第二目标短语且基于第二目标短语,构建成第二目标短语列表Y'。
S4、根据Y和Y',获取关键短语列表Y0且将Y0内任一中间短语作为关键短语,Y0符合如下条件:
Y0=Y∩Y'。
上述,通过两种不同的相似度算法均可以确定为关键短语,一定是能够表征该文本的短语,能够实现可解释性和抽取结果的可控性,保证关键短语抽取更符合用户的需求,提高了用户的体验感。
具体地,关键短语列表中关键短语排序是按照关键短语的相似度由大至小顺序进行排序。
本实施例提供了一种获取关键短语的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,所述数据库包括:预设短语配置列表和初始文本集,当所述计算机程序被处理器执行时,实现以下步骤:对初始文本进行处理,得到初始文本对应的语句列表;根据初始文本中每一初始词和预设短语配置表,确定出中间短语列表,将初始文本和每一中间短语分别输入至目标预训练语言模型中,获取初始文对应的目标词向量和每一中间短语对应的目标词向量,根据初始文对应的目标向和每一中间短语对应的目标词向量,获取中间短语列表对应的相似度列表,遍历相似度列表且中间短语对应的相似度不小于预设的相似度阈值时,确定中间短语为关键短语且对关键短语进行排序,获取关键短语列表;能够实现可解释性和抽取结果的可控性,保证关键短语抽取更符合用户的需求,提高了用户的体验感。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (8)

1.一种获取关键短语的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:预设短语配置列表和初始文本集A={A1,……,Ai,……,An},Ai是指第i个初始文本,i=1……n,n为初始文本数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100、对Ai进行处理,得到Ai对应的语句列表Bi={Bi1,……,Bir,……,
Figure 628201DEST_PATH_IMAGE002
},Bir={B1 ir,……Bj ir,……,Bm ir},Bj ir是指Ai中第r个语句的第j个初始词语,j=1……m,m是指Ai中第r个语句对应的初始词语数量;
S200、根据Bj ir和预设短语配置表,确定出中间短语列表Di={Di1,……,Dir,……,
Figure 890555DEST_PATH_IMAGE004
}, Dir是指第r个中间短语,r=1……si,si为是指Ai对应的中间短语数量;
S300、将Ai和Dir分别输入至目标预训练语言模型中,获取Ai对应的目标词向量Hi=(Hi1,……,Hit,……,Hik)和Dir对应的目标词向量Gir=(G1 ir,……,Gt ir,……,Gk ir),Hit是指Ai对应的第t位的bit值,Gt ir是指Dir对应的第t位的bit值,t=1……k,k为预训练语言模型对应的向量bit位个数;
S400、根据Hi和Gir,获取Di对应的第一相似度列表Fi={Fi1,……,Fir,……,
Figure 867607DEST_PATH_IMAGE006
},Fir是指 Ai与Dir之间的第一相似度,Fir符合如下条件:
Figure 405292DEST_PATH_IMAGE008
S500、Fir≥预设的相似度阈值时,确定Fir对应的中间短语为关键短语且对关键短语进行排序,获取关键短语列表。
2.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,A中每一Ai对应的领域均一致。
3.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,在S100步骤中,Bir的排序是按照每一Bj ir的分词顺序进行排序的。
4.根据权利要求3所述的获取关键短语的数据处理系统,其特征在于,在S200步骤中还包括如下步骤:
S201、获取Bj ir对应的词类型;
S203、根据Bir中每一Bj ir对应的词类型与预设配置表中预设组词规则,确定出中间短语。
5.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,在S300步骤中还通过如下步骤确定Gir
S301、获取Dir对应的词语列表Cir={C1 ir,……,Cx ir,……,Cp ir},其中,Cx ir是指Dir对应的第x个初始词语,x=1……p,p为Dir对应的初始词语数量;
S303、将Cx ir输入至目标预训练语言模型中,获取Cx ir对应的中间词向量Ux ir=(Ux1 ir,……,Uxt ir,……,Uxk ir),Uxt ir是指Cx ir对应的第t位的bit值;
S305、根据Ux ir,获取Gt ir,Gt ir符合如下条件:
Figure 470200DEST_PATH_IMAGE010
,其中,Wx ir是Cx ir对应的权重值。
6.根据权利要求5所述的获取关键短语的数据处理系统,其特征在于,在S305步骤中还通过如下步骤确定Wx ir
S3051、从A中获取Cx ir对应的第一词数Vx ir和第二词数Lx ir
S3053、根据Vx ir和Lx ir,确定出Cx ir对应的词频Zx ir,Zx ir符合条件如下:
Figure 852640DEST_PATH_IMAGE012
S3055、根据Zx ir,获取Wx ir,Wx ir符合条件如下:
Figure DEST_PATH_IMAGE013
7.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,所述目标预训练语言模型为Bert模型。
8.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,关键短语列表中关键短语排序是按照关键短语的相似度由大至小顺序进行排序。
CN202210710981.3A 2022-06-22 2022-06-22 一种获取关键短语的数据处理系统 Active CN114781379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210710981.3A CN114781379B (zh) 2022-06-22 2022-06-22 一种获取关键短语的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210710981.3A CN114781379B (zh) 2022-06-22 2022-06-22 一种获取关键短语的数据处理系统

Publications (2)

Publication Number Publication Date
CN114781379A CN114781379A (zh) 2022-07-22
CN114781379B true CN114781379B (zh) 2022-09-16

Family

ID=82422403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210710981.3A Active CN114781379B (zh) 2022-06-22 2022-06-22 一种获取关键短语的数据处理系统

Country Status (1)

Country Link
CN (1) CN114781379B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017269B (zh) * 2022-08-05 2022-10-25 中科雨辰科技有限公司 一种确定相似文本的数据处理系统
CN115408160B (zh) * 2022-09-16 2023-05-05 湖南胜云光电科技有限公司 一种进程监控的数据处理系统
CN117371435B (zh) * 2023-10-09 2024-04-05 北京睿企信息科技有限公司 一种获取热度发生波动的热词的数据处理系统
CN117371436B (zh) * 2023-10-09 2024-04-12 北京睿企信息科技有限公司 一种热度递增的热词获取系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221559A (zh) * 2021-05-31 2021-08-06 浙江大学 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN113408267A (zh) * 2021-06-23 2021-09-17 沈阳雅译网络技术有限公司 一种基于预训练模型的词对齐性能提升方法
WO2021255057A1 (en) * 2020-06-18 2021-12-23 Koninklijke Philips N.V. A computer- implemented method of structuring content for training an artificial intelligence model
CN113934837A (zh) * 2021-09-14 2022-01-14 达而观数据(成都)有限公司 基于预训练模型的关键短语生成方法、装置及储存介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11250214B2 (en) * 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021255057A1 (en) * 2020-06-18 2021-12-23 Koninklijke Philips N.V. A computer- implemented method of structuring content for training an artificial intelligence model
CN113221559A (zh) * 2021-05-31 2021-08-06 浙江大学 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN113408267A (zh) * 2021-06-23 2021-09-17 沈阳雅译网络技术有限公司 一种基于预训练模型的词对齐性能提升方法
CN113934837A (zh) * 2021-09-14 2022-01-14 达而观数据(成都)有限公司 基于预训练模型的关键短语生成方法、装置及储存介质

Also Published As

Publication number Publication date
CN114781379A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN114781379B (zh) 一种获取关键短语的数据处理系统
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
WO2019196314A1 (zh) 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN111339269B (zh) 模板自动生成的知识图谱问答训练及应用服务系统
CN111832282B (zh) 融合外部知识的bert模型的微调方法、装置及计算机设备
CN112035511A (zh) 基于医学知识图谱的目标数据搜索方法及相关设备
CN110737768A (zh) 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN111221962A (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN111967258A (zh) 一种构建共指消解模型的方法、共指消解的方法和介质
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
WO2023130687A1 (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN109299379A (zh) 文章推荐方法、装置、存储介质和电子设备
CN111737420A (zh) 一种基于争议焦点的类案检索方法及系统及装置及介质
CN114138969A (zh) 文本处理方法及装置
JP2001273293A (ja) 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体
WO2021000400A1 (zh) 导诊相似问题对生成方法、系统及计算机设备
CN111723583A (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
WO2023130688A1 (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant