CN116303968A - 基于技术关键词抽取的语义搜索方法、装置、设备及介质 - Google Patents
基于技术关键词抽取的语义搜索方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116303968A CN116303968A CN202310314944.5A CN202310314944A CN116303968A CN 116303968 A CN116303968 A CN 116303968A CN 202310314944 A CN202310314944 A CN 202310314944A CN 116303968 A CN116303968 A CN 116303968A
- Authority
- CN
- China
- Prior art keywords
- technical
- keyword
- keywords
- text
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012216 screening Methods 0.000 claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 6
- 238000012937 correction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术的技术领域,尤其是涉及一种基于技术关键词抽取的语义搜索方法、装置、设备及介质,基于技术关键词抽取的语义搜索方法包括:获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。本申请具有提升对于语义检索的精确度的效果。
Description
技术领域
本发明涉及计算机技术的技术领域,尤其是涉及一种基于技术关键词抽取的语义搜索方法、装置、设备及介质。
背景技术
目前,在用户搜索的场景当中,除了传统的关键词搜索之外,还包括了语义检索,根据用户输入的文字,识别该文字段落的语义后,再进行检索。
现有的语义检索中,尤其是通过语义检索去搜索相关的科技文献时,由于对于科技文献中,会包含很多具有相同含义的名词,然而对于用户的习惯,对相同的名词存在有不同的叫法。
上述中的现有技术方案存在以下缺陷:
由于用户针对同一个技术名词有不同的叫法,且存在不同技术领域的专有名词有相同的简称,或者相同的英文缩写,因此,用户基于自身语言体系在对科技文献进行语义检索时,容易导致搜索结果不够精确。
发明内容
为了提升对于语义检索的精确度,本申请提供一种基于技术关键词抽取的语义搜索方法、装置、设备及介质。
本申请的上述发明目的一是通过以下技术方案得以实现的:
一种基于技术关键词抽取的语义搜索方法,所述基于技术关键词抽取的语义搜索方法包括:获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;
根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;
使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;
根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。
通过采用上述技术方案,在用户进行语义搜索时,对待搜索文本数据分词后,根据得到的文本关键词匹配对应的待搜索领域信息,从而能够将用户输入的待搜索文本限定具体的科技领域,从而能够使得获取得到的领域关键词词库与待搜索文本数据关联度更高,从而能够在使用文本关键词在该领域关键词词库中进行匹配筛选时,得到的技术关键词更加准确,同时也能够丰富从待搜索文本数据中筛选匹配得到的技术关键词,进而提升根据该技术关键词对待搜索文本数据进行语义搜索的准确性。
本申请在一较佳示例中可以进一步配置为:在所述根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库的步骤之前,所述基于技术关键词抽取的语义搜索方法还包括:
获取预设的技术领域信息,并根据所述技术领域信息获取对应的领域关键词,并根据所述领域关键词获取关键词同义词组;
根据所述领域关键词和对应的所述关键词同义词组组成每个所述技术领域信息的技术领域关键词词库。
通过采用上述技术方案,在根据文本关键词获取待搜索领域信息之前,先预设各个技术领域信息,并统计每个技术领域信息中对应的领域关键词,并进行拓展得到关键词同义词组,从而能够在使用技术领域关键词词库进行技术关键词的筛选时,使用对应的同义词进行匹配筛选,从而提升了筛选的准确性。
本申请在一较佳示例中可以进一步配置为:所述根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库,具体包括:
逐个计算每个所述文本关键词与所述技术领域信息的所述技术领域关键词词库的相似度分值;根据每个所述文本关键词的相似度分值,计算每个所述技术领域信息相对于所述文本关键词的相似度总分,并将所述相似度总分最高的所述技术领域信息作为所述待搜索领域信息。
通过采用上述技术方案,计算每个文本关键词与各个技术领域信息的相似度分值,能够根据每个技术领域关键词词库的相似度总分,筛选出与待搜索文本数据相似度最高的作为待搜索领域信息,从而提升了筛选得到的技术关键词的准确性。
本申请在一较佳示例中可以进一步配置为:所述使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词,具体包括:
获取每个所述文本关键词在所述领域关键词库中的所述相似度分值;
筛选所述相似度分值高于预设值的所述文本关键词,作为所述技术关键词。
通过采用上述技术方案,通过获取上述筛选待搜索领域信息时计算得到的相似度分值,与预设值进行比对,不仅能够准确地筛选出技术关键词,也能够有效提升数据的利用率,从而提升了筛选出技术关键词的效率。
本申请在一较佳示例中可以进一步配置为:所述根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果,具体包括:
根据所述技术关键词的相似度分值计算对应的搜索权重;
根据所述技术关键词和所述搜索权重进行语义搜索。
通过采用上述技术方案,利用筛选得到的技术关键词,以及对应的相似度分值,计算出对应的语义搜索的搜索权重,从而提升了语义搜索的准确度。
本申请的上述发明目的二是通过以下技术方案得以实现的:
一种基于技术关键词抽取的语义搜索装置,所述基于技术关键词抽取的语义搜索装置包括:文本分词模块,用于获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;
词库匹配模块,用于根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;
技术词抽取模块,用于使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;
语义搜索模块,用于根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。
通过采用上述技术方案,在用户进行语义搜索时,对待搜索文本数据分词后,根据得到的文本关键词匹配对应的待搜索领域信息,从而能够将用户输入的待搜索文本限定具体的科技领域,从而能够使得获取得到的领域关键词词库与待搜索文本数据关联度更高,从而能够在使用文本关键词在该领域关键词词库中进行匹配筛选时,得到的技术关键词更加准确,同时也能够丰富从待搜索文本数据中筛选匹配得到的技术关键词,进而提升根据该技术关键词对待搜索文本数据进行语义搜索的准确性。
本申请的上述目的三是通过以下技术方案得以实现的:
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于技术关键词抽取的语义搜索方法的步骤。
本申请的上述目的四是通过以下技术方案得以实现的:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于技术关键词抽取的语义搜索方法的步骤。
综上所述,本申请包括以下至少一种有益技术效果:
1、在用户进行语义搜索时,对待搜索文本数据分词后,根据得到的文本关键词匹配对应的待搜索领域信息,从而能够将用户输入的待搜索文本限定具体的科技领域,从而能够使得获取得到的领域关键词词库与待搜索文本数据关联度更高,从而能够在使用文本关键词在该领域关键词词库中进行匹配筛选时,得到的技术关键词更加准确,同时也能够丰富从待搜索文本数据中筛选匹配得到的技术关键词,进而提升根据该技术关键词对待搜索文本数据进行语义搜索的准确性;
2、在根据文本关键词获取待搜索领域信息之前,先预设各个技术领域信息,并统计每个技术领域信息中对应的领域关键词,并进行拓展得到关键词同义词组,从而能够在使用技术领域关键词词库进行技术关键词的筛选时,使用对应的同义词进行匹配筛选,从而提升了筛选的准确性;
3、计算每个文本关键词与各个技术领域信息的相似度分值,能够根据每个技术领域关键词词库的相似度总分,筛选出与待搜索文本数据相似度最高的作为待搜索领域信息,从而提升了筛选得到的技术关键词的准确性;
4、通过获取上述筛选待搜索领域信息时计算得到的相似度分值,与预设值进行比对,不仅能够准确地筛选出技术关键词,也能够有效提升数据的利用率,从而提升了筛选出技术关键词的效率;
5、利用筛选得到的技术关键词,以及对应的相似度分值,计算出对应的语义搜索的搜索权重,从而提升了语义搜索的准确度。
附图说明
图1是本申请一实施例中基于技术关键词抽取的语义搜索的一流程图;
图2是本申请一实施例中基于技术关键词抽取的语义搜索中的另一实现流程图;
图3是本申请一实施例中基于技术关键词抽取的语义搜索中步骤S20的实现流程图;
图4是本申请一实施例中基于技术关键词抽取的语义搜索中步骤S30的实现流程图;
图5是本申请一实施例中基于技术关键词抽取的语义搜索中步骤S40的实现流程图;
图6是本申请一实施例中用于微网的光储充装置的一原理框图;
图7是本申请一实施例中的设备示意图。
具体实施方式
以下结合附图对本申请作进一步详细说明。
在一实施例中,如图1所示,本申请公开了一种基于技术关键词抽取的语义搜索方法,具体包括如下步骤:
S10:获取待搜索文本数据,对待搜索文本数据进行分词处理,得到文本关键词。
在本实施例中,待搜索文本数据是指由用户输入,对希望搜索的科技文献进行描述的文本。文本关键词是指在待搜索文本中的各个词语。
具体地,在用户希望通过语义检索,以获取相关的科技文献时,例如在用户检索专利文献,通过输入对应的描述文字,作为待搜索文本数据,例如,用户在撰写专利申请文件时,为了检索对应的对比文件,可以将对应的技术交底书或者撰写好的专利申请文件作为待搜索文本数据。
进一步地,通过预设的分词模型,对待搜索文本数据进行分词处理,并对切分得到的词语构建对应的词向量,从而得到文本关键词。
S20:根据文本关键词获取待搜索领域信息,根据待搜索领域信息获取预设的领域关键词词库。
在本实施例中,待搜索领域信息是指该待搜索文本所对应的技术领域的信息。领域关键词词库是指存储有该待搜索领域所对应的专有名词的数据库。
具体地,通过部分或者全部文本关键词,匹配出与该待搜索文本数据最相近的技术领域,例如对于专利检索的场景中,该待搜索领域信息可以是对应国际专利分类表中的其中一个或多个小组。
进一步地,在获取到待搜索领域信息后,获取与该待搜索领域信息相关联的领域关键词词库。
S30:使用文本关键词在领域关键词词库进行匹配筛选,得到技术关键词。
具体地,在匹配得到与该待搜索文本数据后,将每个文本关键词与领域关键词词库中的词向量进行相似度比对,从而在待搜索文本数据中的个文本关键词中,匹配筛选出对应的技术关键词。
S40:根据技术关键词对待搜索文本数据进行语义搜索,得到对应的搜索结果。
具体地,在从各文本关键词中筛选得到技术关键词后,为该技术关键词设置对应的搜索权重,根据设置的对应的搜索权重对该待搜索文本数据进行语义搜索,从而搜索出与该待搜索文本数据相对应的文献资料,即搜索结果。
在本实施例中,在用户进行语义搜索时,对待搜索文本数据分词后,根据得到的文本关键词匹配对应的待搜索领域信息,从而能够将用户输入的待搜索文本限定具体的科技领域,从而能够使得获取得到的领域关键词词库与待搜索文本数据关联度更高,从而能够在使用文本关键词在该领域关键词词库中进行匹配筛选时,得到的技术关键词更加准确,同时也能够丰富从待搜索文本数据中筛选匹配得到的技术关键词,进而提升根据该技术关键词对待搜索文本数据进行语义搜索的准确性。
在一实施例中,如图2所示,在步骤S20之前,基于技术关键词抽取的语义搜索方法还包括:
S201:获取预设的技术领域信息,并根据技术领域信息获取对应的领域关键词,并根据领域关键词获取关键词同义词组。
在本实施例中,技术领域信息是指预先统计的各个技术领域的信息。关键词同义词组是指每个领域关键词在该技术领域中对应的同义词。
具体地,通过预先统计出对应的技术领域信息,例如,对于国际专利分类表中,该技术领域信息可以是对应每个技术领域中的各个小组,在获取到技术领域信息后,通过关键词的爬取以及筛选,得到该领域对应的领域关键词,并根据该领域关键词的相关文献,统计得到对应的关键词同义词组。
S202:根据领域关键词和对应的关键词同义词组组成每个技术领域信息的技术领域关键词词库。
具体地,在将每一个领域关键词和对应的关键词同义词词组构建了词向量后,存储至数据库中,从而得到技术领域关键词词库。
在一实施例中,如图3所示,在步骤S20中,即根据文本关键词获取待搜索领域信息,根据待搜索领域信息获取预设的领域关键词词库,具体包括:
S21:逐个计算每个文本关键词与技术领域信息的技术领域关键词词库的相似度分值。
具体地,通过文本关键词的词向量,和每个技术领域关键词词库中的领域关键词的词向量计算相似度,在计算时,每个文本关键词依次与每个领域关键词的关键词同义词组进行计算,将相似度最高的作为对应的相似度分值。
S22:根据每个文本关键词的相似度分值,计算每个技术领域信息相对于文本关键词的相似度总分,并将相似度总分最高的技术领域信息作为待搜索领域信息。
具体地,对其中任意一个技术领域信息来说,将每个文本关键词相对该技术领域信息的相似度分值进行累加,从而得到该技术领域信息的相似度总分;进一步地,在计算得到每一个技术领域信息的相似度总分后,将相似度总分最高的技术领域信息作为与该待搜索文本相关联的待搜索领域信息。
在一实施例中,如图4所示,在步骤S30中,即使用文本关键词在领域关键词词库进行匹配筛选,得到技术关键词,具体包括:
S31:获取每个文本关键词在领域关键词库中的相似度分值。
具体地,统计每个文本关键词相对于该领域关键词库对应的相似度分值,并按照相似度分值从高到低的顺序进行排序。
S32:筛选相似度分值高于预设值的文本关键词,作为技术关键词。
具体地,通过预先设定相似度阈值,将相似度分值高于该相似度阈值的文本关键词作为技术关键词。
在一实施例中,如图5所示,在步骤S40中,即根据技术关键词对待搜索文本数据进行语义搜索,得到对应的搜索结果,具体包括:
S41:根据技术关键词的相似度分值计算对应的搜索权重。
具体地,可以采用以下公式计算出每个技术关键词对应的搜索权重:p=n/N;
其中,n是指每个技术关键词在待搜索文本数据中的数量,N是指筛选得到的技术关键词的总数量,k是指每个技术关键词的相似度分值,k阈是指步骤S32中筛选技术关键词时使用的相似度预设值,T是指每个技术关键词对应的搜索权重,a是指修正参数。
具体地,在预先设置好对应的修正参数a,计算每个技术关键词的搜索权重时,获取每个技术关键词在待搜索文本数据中的数量n,和筛选得到的技术关键词的总数量N,并将具体需要计算的技术关键词的相似度分值输入至上述公式,从而计算出对应的搜索权重T,即该技术关键词对应的相似度分值越高,在待搜索文本数据中出现的次数越多,则说明该技术关键词在待搜索文本中的关联度越高,也就说明该技术关键词在待搜索文本数据中的重要性也越高,因此计算得到的搜索权重T也越高。
S42:根据技术关键词和搜索权重进行语义搜索。
具体地,在基于技术关键词,对待搜索文本数据进行语义搜索时,将每个技术关键词的搜索权重输入至对应的算法中,从而搜索得到对应的文献。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种基于技术关键词抽取的语义搜索装置,该基于技术关键词抽取的语义搜索装置与上述实施例中基于技术关键词抽取的语义搜索方法一一对应。如图6所示,该基于技术关键词抽取的语义搜索装置包括文本分词模块、词库匹配模块、技术词抽取模块和语义搜索模块。各功能模块详细说明如下:
文本分词模块,用于获取待搜索文本数据,对待搜索文本数据进行分词处理,得到文本关键词;
词库匹配模块,用于根据文本关键词获取待搜索领域信息,根据待搜索领域信息获取预设的领域关键词词库;
技术词抽取模块,用于使用文本关键词在领域关键词词库进行匹配筛选,得到技术关键词;语义搜索模块,用于根据技术关键词对待搜索文本数据进行语义搜索,得到对应的搜索结果。
可选的,基于技术关键词抽取的语义搜索装置还包括:
词组搜索模块,用于获取预设的技术领域信息,并根据技术领域信息获取对应的领域关键词,并根据领域关键词获取关键词同义词组;
词库创建模块,用于根据领域关键词和对应的关键词同义词组组成每个技术领域信息的技术领域关键词词库。
可选的,词库匹配模块包括:
分值计算子模块,用于逐个计算每个文本关键词与技术领域信息的技术领域关键词词库的相似度分值;
领域匹配子模块,用于根据每个文本关键词的相似度分值,计算每个技术领域信息相对于文本关键词的相似度总分,并将相似度总分最高的技术领域信息作为待搜索领域信息。
可选的,技术词抽取模块包括:
分值统计子模块,用于获取每个文本关键词在领域关键词库中的相似度分值;
技术词筛选子模块,用于筛选相似度分值高于预设值的文本关键词,作为技术关键词。
可选的,语义搜索模块包括:
权重计算子模块,用于根据技术关键词的相似度分值计算对应的搜索权重;
语义搜索子模块,用于根据技术关键词和搜索权重进行语义搜索。
关于基于技术关键词抽取的语义搜索装置的具体限定可以参见上文中对于基于技术关键词抽取的语义搜索方法的限定,在此不再赘述。上述基于技术关键词抽取的语义搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于技术关键词抽取的语义搜索方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待搜索文本数据,对待搜索文本数据进行分词处理,得到文本关键词;
根据文本关键词获取待搜索领域信息,根据待搜索领域信息获取预设的领域关键词词库;
使用文本关键词在领域关键词词库进行匹配筛选,得到技术关键词;
根据技术关键词对待搜索文本数据进行语义搜索,得到对应的搜索结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待搜索文本数据,对待搜索文本数据进行分词处理,得到文本关键词;
根据文本关键词获取待搜索领域信息,根据待搜索领域信息获取预设的领域关键词词库;使用文本关键词在领域关键词词库进行匹配筛选,得到技术关键词;
根据技术关键词对待搜索文本数据进行语义搜索,得到对应的搜索结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于技术关键词抽取的语义搜索方法,其特征在于,所述基于技术关键词抽取的语义搜索方法包括:
获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;
根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;
使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;
根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。
2.根据权利要求1所述的基于技术关键词抽取的语义搜索方法,其特征在于,在所述根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库的步骤之前,所述基于技术关键词抽取的语义搜索方法还包括:
获取预设的技术领域信息,并根据所述技术领域信息获取对应的领域关键词,并根据所述领域关键词获取关键词同义词组;
根据所述领域关键词和对应的所述关键词同义词组组成每个所述技术领域信息的技术领域关键词词库。
3.根据权利要求2所述的基于技术关键词抽取的语义搜索方法,其特征在于,所述根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库,具体包括:
逐个计算每个所述文本关键词与所述技术领域信息的所述技术领域关键词词库的相似度分值;
根据每个所述文本关键词的相似度分值,计算每个所述技术领域信息相对于所述文本关键词的相似度总分,并将所述相似度总分最高的所述技术领域信息作为所述待搜索领域信息。
4.根据权利要求3所述的基于技术关键词抽取的语义搜索方法,其特征在于,所述使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词,具体包括:
获取每个所述文本关键词在所述领域关键词库中的所述相似度分值;
筛选所述相似度分值高于预设值的所述文本关键词,作为所述技术关键词。
5.根据权利要求4所述的基于技术关键词抽取的语义搜索方法,其特征在于,所述根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果,具体包括:
根据所述技术关键词的相似度分值计算对应的搜索权重;
根据所述技术关键词和所述搜索权重进行语义搜索。
6.一种基于技术关键词抽取的语义搜索装置,其特征在于,所述基于技术关键词抽取的语义搜索装置包括:
文本分词模块,用于获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;
词库匹配模块,用于根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;
技术词抽取模块,用于使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;
语义搜索模块,用于根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。
7.根据权利要求6所述的基于技术关键词抽取的语义搜索装置,其特征在于,所述基于技术关键词抽取的语义搜索装置还包括:
词组搜索模块,用于获取预设的技术领域信息,并根据所述技术领域信息获取对应的领域关键词,并根据所述领域关键词获取关键词同义词组;
词库创建模块,用于根据所述领域关键词和对应的所述关键词同义词组组成每个所述技术领域信息的技术领域关键词词库。
8.根据权利要求7所述的基于技术关键词抽取的语义搜索装置,其特征在于,所述词库匹配模块包括:
分值计算子模块,用于逐个计算每个所述文本关键词与所述技术领域信息的所述技术领域关键词词库的相似度分值;
领域匹配子模块,用于根据每个所述文本关键词的相似度分值,计算每个所述技术领域信息相对于所述文本关键词的相似度总分,并将所述相似度总分最高的所述技术领域信息作为所述待搜索领域信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于技术关键词抽取的语义搜索方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于技术关键词抽取的语义搜索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310314944.5A CN116303968A (zh) | 2023-03-20 | 2023-03-20 | 基于技术关键词抽取的语义搜索方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310314944.5A CN116303968A (zh) | 2023-03-20 | 2023-03-20 | 基于技术关键词抽取的语义搜索方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303968A true CN116303968A (zh) | 2023-06-23 |
Family
ID=86813099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310314944.5A Pending CN116303968A (zh) | 2023-03-20 | 2023-03-20 | 基于技术关键词抽取的语义搜索方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303968A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725423A (zh) * | 2024-02-18 | 2024-03-19 | 青岛海尔科技有限公司 | 基于大模型的反馈信息的生成方法及装置 |
-
2023
- 2023-03-20 CN CN202310314944.5A patent/CN116303968A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725423A (zh) * | 2024-02-18 | 2024-03-19 | 青岛海尔科技有限公司 | 基于大模型的反馈信息的生成方法及装置 |
CN117725423B (zh) * | 2024-02-18 | 2024-05-24 | 青岛海尔科技有限公司 | 基于大模型的反馈信息的生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544474B2 (en) | Generation of text from structured data | |
CN111324784B (zh) | 一种字符串处理方法及装置 | |
CN109933785B (zh) | 用于实体关联的方法、装置、设备和介质 | |
WO2019136993A1 (zh) | 文本相似度计算方法、装置、计算机设备和存储介质 | |
US9946753B2 (en) | Method and system for document indexing and data querying | |
US20230076658A1 (en) | Method, apparatus, computer device and storage medium for decoding speech data | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN116303968A (zh) | 基于技术关键词抽取的语义搜索方法、装置、设备及介质 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN107329964B (zh) | 一种文本处理方法及装置 | |
CN108595437B (zh) | 文本查询纠错方法、装置、计算机设备和存储介质 | |
WO2020132933A1 (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
CN117591547A (zh) | 数据库的查询方法、装置、终端设备以及存储介质 | |
CN111723179B (zh) | 基于概念图谱的反馈模型信息检索方法、系统及介质 | |
CN117076652A (zh) | 一种用于中短句的语义文本检索方法、系统及存储介质 | |
CN117194607A (zh) | 基于自然语言的搜索方法和系统 | |
CN114003685B (zh) | 分词位置索引构建方法及其装置、文档检索方法及其装置 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN116484829A (zh) | 用于信息处理的方法和设备 | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
CN115794743A (zh) | 一种针对专利和期刊文献的综合检索方法及系统 | |
KR101694179B1 (ko) | 모음 제거 기반 인덱스 생성 방법 및 장치 | |
CN112199461B (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
CN115269765A (zh) | 账号识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |