CN117112773A - 一种基于nlp的适航非结构化数据的搜索方法及装置 - Google Patents
一种基于nlp的适航非结构化数据的搜索方法及装置 Download PDFInfo
- Publication number
- CN117112773A CN117112773A CN202311158016.0A CN202311158016A CN117112773A CN 117112773 A CN117112773 A CN 117112773A CN 202311158016 A CN202311158016 A CN 202311158016A CN 117112773 A CN117112773 A CN 117112773A
- Authority
- CN
- China
- Prior art keywords
- keyword
- navigable
- data
- data set
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 11
- 238000012360 testing method Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于适航测试技术领域,提供了一种基于NLP的适航非结构化数据的搜索方法及装置。本搜索方法,包括以下步骤:S1:获取适航数据,使用RLHF和TF‑IDF算法对适航数据进行处理,获得关键词数据集;S2:根据用户输入的查询语句,获取查询关键词词组;S3:利用NLP模型将查询关键词词组和S1中获得的关键词数据集进行匹配,得到候选适航数据集合;S4:将候选适航数据集合中的各适航数据排序并展示。本搜索方法,在获取关键词数据集的时候,将RLHF和TF‑IDF结合使用,提高关键词提取的准确性和精度。
Description
技术领域
本发明涉及适航测试技术领域,具体涉及一种基于NLP的适航非结构化数据的搜索方法及装置。
背景技术
航空领域中的适航性测试需要大量的数据支持,这些数据散布在各种文件中。在飞机的设计、开发和维护过程中,需要从这些文件中快速找到相关信息以支持决策。
在适航数据搜索方面,目前存在以下技术问题:数据无规律:适航数据来源广泛,格式不一,内容复杂,难以进行有效的分类和整理;搜索效率低:传统的搜索方法需要手动输入关键词,搜索结果不准确,且搜索速度慢;搜索结果不全面:传统的搜索方法只能搜索到与关键词相关的数据,无法搜索到与关键词相关的潜在数据。
专利文献CN112507109A(申请号:CN202011442031.4)公开了一种基于语义分析与关键词识别的检索方法和装置,可以在提高搜索的准确率,但是该专利用到的Textrank算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。但这一摘要严重依赖分词结果,如果某词在分词时被切分成了两个词,那么在做关键词提取时无法将两个词黏合在一起,会直接造成关键词生成的准确率降低。此外,由于TextRank涉及到构建词图及迭代计算,所以提取速度会十分缓慢。
发明内容
有鉴于此,本发明实施例提供了一种基于NLP的适航非结构化数据的搜索方法及装置,用以解决或部分解决上述问题。
第一方面,本发明实施例提供了一种基于NLP的适航非结构化数据的搜索方法,包括以下步骤:
S1:获取适航数据,使用RLHF和TF-IDF算法对所述适航数据进行处理,获得关键词数据集;
S2:根据用户输入的查询语句,获取查询关键词词组;
S3:利用NLP模型将所述查询关键词词组和所述关键词数据集进行匹配,得到候选适航数据集合;
S4:将所述候选适航数据集合中的各所述适航数据排序并展示。
根据本发明实施例的一种具体实现方式,所述步骤S1具体为:
S1.1:对所述适航数据的各文本进行分词处理,将所述适航数据的各文本分解成若干个词;
S1.2:计算每个所述词在所述适航数据的各文本中出现的总次数TF;
S1.3:计算每个所述词的RLHF值;
S1.4:计算每个所述词的TF-IDF值;
S1.5:将每个所述词的RLHF值和TF-IDF值相乘,获得综合权重,根据权重值排序,获得所述关键词数据集。
根据本发明实施例的一种具体实现方式,所述步骤S3具体为:
S3.1:将所述用户查询关键词词组和所述关键词数据集中的各关键词转化为对应的向量表示;
S3.2:分别计算所述用户查询关键词词组中关键词的向量与所述关键词数据集中所有关键词的向量的余弦相似度,获得相似度矩阵;
S3.3:通过预设的匹配阈值从所述相似度矩阵中筛除不匹配的关键词,根据所述相似度矩阵获得所述候选适航数据集合。
根据本发明实施例的一种具体实现方式,所述步骤S4中,根据所述适航数据的发布时间或内容更新时间,及所述余弦相似度进行排序。
根据本发明实施例的一种具体实现方式,所述步骤S4中,展示时,在各所述适航数据的文本中加粗出现的关键词。
根据本发明实施例的一种具体实现方式,所述步骤S4中,展示时,使用散点图、卡片翻转、地图和/或词云图形式可视化展示匹配的所述适航数据。便于用户更直观的了解搜索结果。
第二方面,本发明实施例提供了一种基于NLP的适航非结构化数据的搜索装置,包括:
数据集获取模块,所述数据集获取模块用以获取适航数据,使用RLHF和TF-IDF算法对所述适航数据进行处理,获得关键词数据集;
词组获取模块,所述词组获取模块用以根据用户输入的查询语句,获取查询关键词词组;
匹配模块,所述匹配模块用以利用NLP模型将所述查询关键词词组和所述关键词数据集进行匹配,得到候选适航数据集合;
展示模块,所述展示模块用以将所述候选适航数据集合中的各所述适航数据排序并展示。
根据本发明实施例的一种具体实现方式,所述数据集获取模块具体为:对所述适航数据的各文本进行分词处理,将所述适航数据的各文本分解成若干个词;计算每个所述词在所述适航数据的各文本中出现的总次数TF;计算每个所述词的RLHF值;计算每个所述词的TF-IDF值;将每个所述词的RLHF值和TF-IDF值相乘,获得综合权重,根据权重值排序,获得所述关键词数据集。
根据本发明实施例的一种具体实现方式,所述匹配模块具体为:将所述用户查询关键词词组和所述关键词数据集中的各关键词转化为对应的向量表示;分别计算所述用户查询关键词词组中关键词的向量与所述关键词数据集中所有关键词的向量的余弦相似度,获得相似度矩阵;通过预设的匹配阈值从所述相似度矩阵中筛除不匹配的关键词,根据所述相似度矩阵获得所述候选适航数据集合。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述第一方面或第一方面的任一实现方式中的搜索方法的步骤。
本发明的实施例至少具有如下技术效果:
第一、本搜索方法,在获取关键词数据集的时候,将RLHF和TF-IDF结合使用,由于RLHF和TF-IDF在计算方法和侧重点上不同,结合使用可以取长补短,提高关键词提取的准确性和精度。
第二、在数据排序和结果展示环节中,结合相关性和时效性因素,实现更准确、更完整的的数据搜索。
第三、最后通过可视化的方式展示搜索结果,提高了用户体验。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明实施例所提供的一种基于NLP的适航非结构化数据的搜索方法的流程图;
图2示出了本发明实施例所提供的一种基于NLP的适航非结构化数据的搜索装置的结构框图;
图3示出了本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
图1为本发明实施例提供的一种基于NLP的适航非结构化数据的搜索方法的步骤流程图,参见图1,该方法包括以下步骤:
包括以下步骤:
S1:获取适航数据,使用RLHF和TF-IDF算法对所述适航数据进行处理,获得关键词数据集。
在获取适航数据的关键词数据集阶段,从航空数据提供商处获取适航数据,然后利用RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)和TF-IDF(Term Frequency - Inverse Document Frequency,词频-逆文档频率)算法对适航数据进行关键词提取,得到适航文本的关键词数据集。具体为:
S1.1:对适航数据各文本进行分词处理,将适航文本分解成一个个词;
S1.2:计算每个词在适航文本中出现的总次数,即该词在文本中的词频(TermFrequency,TF);
S1.3:计算每个词的RLHF值;对于一个给定的词w,计算其在文本s中的位置p(w)和文本长度n,得到其相对位置rp(w)=p(w)/n,然后计算所有词在文本中的rp值,对其排序,并标准化为0-1之间的值,得到每个词的RLHF值;
S1.4:计算每个词的TF-IDF值,其公式为:TF-IDF=TF*IDF;TF为该词在所有文档中出现的频率(DocumentFrequency,DF),IDF为该词的逆文档频率(InverseDocumentFrequency,IDF),其公式为:IDF=log(总文档数/DF);
S1.5:将每个词的RLHF值和TF-IDF值相乘,计算综合权重,然后按照权重值排序,取出具有较高权重值的词汇,作为关键词进行展示和分析。
由于RLHF和TF-IDF在计算方法和侧重点上不同,结合使用可以取长补短,提高关键词提取的准确性和精度。
S2:根据用户输入的查询语句,获取查询关键词词组。
在获取查询关键词阶段,利用深度学习,实现自动关键词标注,对用户输入的查询文本进行分词、纠错等处理,将原始文本转换为若干个关键词词组。
具体为:结合HMM(Hidden Markov Model,隐马尔可夫模型)模型和CRF(conditional random fields,条件随机场)模型可以实现更准确的关键词自动标注。分以下步骤:
S2.1:特征提取:对于输入的查询文本,提取一些特征,如词性、词频、上下文等。这些特征可以帮助模型更好地理解文本。
S2.2:HMM模型训练:使用训练数据集训练HMM模型。根据已标注的关键词信息,计算初始状态概率、状态转移概率和观测概率。
S2.3:HMM模型预测:对于待标注的文本序列,利用Viterbi算法和已训练好的HMM模型,计算出具有最大概率路径的状态序列。
S2.4:特征转换:将HMM模型预测得到的状态序列转换成特征序列。例如,将关键词状态标记为1,非关键词状态标记为0。
S2.5:CRF模型训练:使用训练数据集和特征序列训练CRF模型。CRF模型可以学习到更复杂的特征之间的关系。
S2.6:CRF模型预测:对于待标注的文本序列和特征序列,利用已训练好的CRF模型进行预测。CRF模型可以考虑更多上下文信息,提高关键词自动标注的准确性。
S2.7:通过结合HMM模型和CRF模型得到的数据集即是关键词词组。
S3:利用NLP模型将查询关键词词组和关键词数据集进行匹配,得到候选适航数据集合。
NLP(自然语言处理)是一种人工智能技术,可以帮助计算机理解和处理人类语言。简单来说即是计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。在适航数据搜索方面,NLP可以帮助计算机理解数据的含义,从而实现更准确、更完整的搜索结果。
在获取匹配关键词数据集阶段,利用NLP模型预测两个文本的语义相关性,即通过将用户输入得到的关键词词组和利用适航数据得到的关键词数据集进行匹配,得到候选适航数据集合。具体为:
S3.1:词向量表示。把用户查询关键词词组和关键词数据集中的各关键词转化为对应的向量表示;
假设用户查询数据为“自然语言处理”,现有的关键词数据集包含以下几个关键词:“自然语言处理”、“机器学习”、“数据挖掘”,首先对用户查询关键词词组和关键词数据集中的各词进行处理,转化为向量表示。这里以Word2Vec算法为例,可以使用已经预训练好的词向量模型,将每个词转化为对应的向量表示。例如,可以得到以下向量表示:
“自然语言处理”:[0.1,0.2,0.3,…,0.4],
“机器学习”:[0.4,0.5,0.6,…,0.2],
“数据挖掘”:[0.3,0.1,0.9,…,0.7]。
S3.2:相似度计算。分别计算用户查询关键词词组中关键词的向量与关键词数据集中所有关键词的向量的余弦相似度,获得相似度矩阵;
具体计算公式为令用户查询关键词词组Q={q1,q2,...qn},适航数据库中某个文档d对应的关键词集合,Q与/>的相关度/>的计算方式如下:
(1)
其中,g(⋅,⋅)为相关度计算函数, 如余弦相似度。
例如,可以得到如下表1所示的相似度矩阵:
表1
其中,用户查询数据与自然语言处理关键词的相似度为1,与机器学习关键词的相似度为0.3,与数据挖掘关键词的相似度为0.2。
S3.3:匹配阈值。通过预设的匹配阈值从相似度矩阵中筛除不匹配的关键词,根据相似度矩阵获得候选适航数据集合。
通过设置一个匹配阈值,例如0.5,将用户查询数据与关键词数据集中的关键词进行匹配。如果存在相似度大于匹配阈值的关键词,则表示匹配上。相似度最高的是“自然语言处理”,其相似度为1,大于匹配阈值0.5,因此可以认为用户查询数据与“自然语言处理”这个关键词匹配上了。若有多个相似度大于匹配阈值的关键词,则全保留且按相似度排序。
S4:将候选适航数据集合中的各适航数据排序并展示。
在综合排序和结果展示阶段,从满足用户需求的候选适航数据集合中将各适航数据进行排序和展示。具体为:
在各适航数据文本中加粗出现的关键词或词组,并根据适航数据的发布时间或内容更新时间进行排序;根据预先设定的显示规则,从排序后的结果中选择要展示的关键词,如展示前N个关键词,或者展示匹配得分高于某个阈值的所有关键词等;结合相关性和时效性因素。
根据需要,可视化展示匹配的文本数据,可以使用散点图、卡片翻转、地图、词云图等形式,以便于用户更直观的了解搜索结果。
需要说明的是,各个模块按照流式布局进行排列,仅仅是本发明的一个实施例,也可以采用其他的方式排列,本发明对此不做限定。
本发明的实施例具有如下技术效果:
第一、本搜索方法解决了现有技术中关键词提取准确率低、提取速度慢的问题,利用RLHF和TF-IDF算法有效提升了关键词提取的准确率,加快了提取速度。
第二、本搜索方法在数据展示方面,结合相关性和时效性方法进行排序,通过可视化展示了有关联性的最新数据,提高用户体验。
图2为一种本发明实施例提供的一种基于NLP的适航非结构化数据的搜索装置的结构框图,该装置包括:
数据集获取模块,用以获取适航数据,使用RLHF和TF-IDF算法对适航数据进行处理,获得关键词数据集;具体为:对适航数据的各文本进行分词处理,将适航数据的各文本分解成若干个词;计算每个词在适航数据的各文本中出现的总次数TF;计算每个词的RLHF值;计算每个词的TF-IDF值;将每个词的RLHF值和TF-IDF值相乘,获得综合权重,根据权重值排序,获得关键词数据集。
词组获取模块,用以根据用户输入的查询语句,获取查询关键词词组。
匹配模块,用以利用NLP模型将查询关键词词组和关键词数据集进行匹配,得到候选适航数据集合;具体为:将用户查询关键词词组和关键词数据集中的各关键词转化为对应的向量表示;分别计算用户查询关键词词组中关键词的向量与关键词数据集中所有关键词的向量的余弦相似度,获得相似度矩阵;通过预设的匹配阈值从相似度矩阵中筛除不匹配的关键词,根据相似度矩阵获得候选适航数据集合。
展示模块,用以将候选适航数据集合中的各适航数据排序并展示。
图2实施例中各模块的功能与其对应的方法实施例中的内容相对应,在此不再赘述。
图3示出了本发明实施例提供的电子设备30的结构示意图,电子设备30包括至少一个处理器301(例如CPU),至少一个输入输出接口304,存储器302,和至少一个通信总线303,用于实现这些部件之间的连接通信。至少一个处理器301用于执行存储器302中存储的计算机指令,以使所述至少一个处理器301能够执行前述任一搜索方法的实施例。存储器302为非暂态存储器(non-transitorymemory),其可以包含易失性存储器,例如高速随机存取存储器(RAM:RandomAccessMemory),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个输入输出接口304(可以是有线或者无线通信接口)实现与至少一个其他设备或单元之间的通信连接。
在一些实施方式中,存储器302存储了程序3021,处理器301执行程序3021,用于执行前述任一分表方法实施例中的内容。
该电子设备可以以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)特定服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于NLP的适航非结构化数据的搜索方法,其特征在于,包括以下步骤:
S1:获取适航数据,使用RLHF和TF-IDF算法对所述适航数据进行处理,获得关键词数据集;
S2:根据用户输入的查询语句,获取查询关键词词组;
S3:利用NLP模型将所述查询关键词词组和关键词数据集进行匹配,得到候选适航数据集合;
S4:将所述候选适航数据集合中的各所述适航数据排序并展示。
2.根据权利要求1所述的搜索方法,其特征在于,所述步骤S1具体包括以下步骤:
S1.1:对所述适航数据的各文本进行分词处理,将所述适航数据的各文本分解成若干个词;
S1.2:计算每个所述词在所述适航数据的各文本中出现的总次数TF;
S1.3:计算每个所述词的RLHF值;
S1.4:计算每个所述词的TF-IDF值;
S1.5:将每个所述词的RLHF值和TF-IDF值相乘,获得综合权重,根据权重值排序,获得所述关键词数据集。
3.根据权利要求1所述的搜索方法,其特征在于,所述步骤S2中,通过HMM和CRF模型来获取所述查询关键词词组。
4.根据权利要求1所述的搜索方法,其特征在于,所述步骤S3具体包括以下步骤:
S3.1:将所述用户查询关键词词组和所述关键词数据集中的各关键词转化为对应的向量表示;
S3.2:分别计算所述用户查询关键词词组中关键词的向量与所述关键词数据集中所有关键词的向量的余弦相似度,获得相似度矩阵;
S3.3:通过预设的匹配阈值从所述相似度矩阵中筛除不匹配的关键词,根据所述相似度矩阵获得所述候选适航数据集合。
5.根据权利要求4所述的搜索方法,其特征在于,所述步骤S4中,根据所述适航数据的发布时间或内容更新时间,及所述余弦相似度进行排序。
6.根据权利要求5所述的搜索方法,其特征在于,所述步骤S4中,展示时,使用散点图、卡片翻转、地图和/或词云图形式,可视化展示匹配的所述适航数据。
7.一种基于NLP的适航非结构化数据的搜索装置,其特征在于,包括:
数据集获取模块,所述数据集获取模块用以获取适航数据,使用RLHF和TF-IDF算法对所述适航数据进行处理,获得关键词数据集;
词组获取模块,所述词组获取模块用以根据用户输入的查询语句,获取查询关键词词组;
匹配模块,所述匹配模块用以利用NLP模型将所述查询关键词词组和所述关键词数据集进行匹配,得到候选适航数据集合;
展示模块,所述展示模块用以将所述候选适航数据集合中的各所述适航数据排序并展示。
8.根据权利要求7所述的装置,其特征在于,所述数据集获取模块具体为:对所述适航数据的各文本进行分词处理,将所述适航数据的各文本分解成若干个词;计算每个所述词在所述适航数据的各文本中出现的总次数TF;计算每个所述词的RLHF值;计算每个所述词的TF-IDF值;将每个所述词的RLHF值和TF-IDF值相乘,获得综合权重,根据权重值排序,获得所述关键词数据集。
9.根据权利要求7所述的装置,其特征在于,所述匹配模块具体为:将所述用户查询关键词词组和所述关键词数据集中的各关键词转化为对应的向量表示;分别计算所述用户查询关键词词组中关键词的向量与所述关键词数据集中所有关键词的向量的余弦相似度,获得相似度矩阵;通过预设的匹配阈值从所述相似度矩阵中筛除不匹配的关键词,根据所述相似度矩阵获得所述候选适航数据集合。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述搜索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311158016.0A CN117112773A (zh) | 2023-09-08 | 2023-09-08 | 一种基于nlp的适航非结构化数据的搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311158016.0A CN117112773A (zh) | 2023-09-08 | 2023-09-08 | 一种基于nlp的适航非结构化数据的搜索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117112773A true CN117112773A (zh) | 2023-11-24 |
Family
ID=88798276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311158016.0A Pending CN117112773A (zh) | 2023-09-08 | 2023-09-08 | 一种基于nlp的适航非结构化数据的搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117112773A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN111859961A (zh) * | 2020-07-29 | 2020-10-30 | 华中师范大学 | 一种基于改进TopicRank算法的文本关键词抽取方法 |
CN112199588A (zh) * | 2020-09-30 | 2021-01-08 | 深圳壹账通智能科技有限公司 | 舆情文本筛选方法及装置 |
CN112528001A (zh) * | 2020-12-23 | 2021-03-19 | 北京百度网讯科技有限公司 | 一种信息查询方法、装置及电子设备 |
CN114297388A (zh) * | 2021-12-31 | 2022-04-08 | 天津光电通信技术有限公司 | 一种文本关键词提取方法 |
CN114925174A (zh) * | 2022-06-07 | 2022-08-19 | 来也科技(北京)有限公司 | 文档检索方法、装置及电子设备 |
CN115329041A (zh) * | 2022-08-09 | 2022-11-11 | 佛山市智招科技有限公司 | 一种基于人工智能的人才信息匹配方法 |
-
2023
- 2023-09-08 CN CN202311158016.0A patent/CN117112773A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN111859961A (zh) * | 2020-07-29 | 2020-10-30 | 华中师范大学 | 一种基于改进TopicRank算法的文本关键词抽取方法 |
CN112199588A (zh) * | 2020-09-30 | 2021-01-08 | 深圳壹账通智能科技有限公司 | 舆情文本筛选方法及装置 |
CN112528001A (zh) * | 2020-12-23 | 2021-03-19 | 北京百度网讯科技有限公司 | 一种信息查询方法、装置及电子设备 |
CN114297388A (zh) * | 2021-12-31 | 2022-04-08 | 天津光电通信技术有限公司 | 一种文本关键词提取方法 |
CN114925174A (zh) * | 2022-06-07 | 2022-08-19 | 来也科技(北京)有限公司 | 文档检索方法、装置及电子设备 |
CN115329041A (zh) * | 2022-08-09 | 2022-11-11 | 佛山市智招科技有限公司 | 一种基于人工智能的人才信息匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US10282419B2 (en) | Multi-domain natural language processing architecture | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
US20230111582A1 (en) | Text mining method based on artificial intelligence, related apparatus and device | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN112100326B (zh) | 一种抗干扰的融合检索和机器阅读理解的问答方法及系统 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
CN114840671A (zh) | 对话生成方法、模型的训练方法、装置、设备及介质 | |
JP2022169743A (ja) | 情報抽出方法、装置、電子機器及び記憶媒体 | |
CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN116450867B (zh) | 一种基于对比学习和大语言模型的图数据语义搜索方法 | |
CN112905768A (zh) | 一种数据交互方法、装置及存储介质 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN114003682A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |