CN117093699B - 智能问答方法、装置、设备及介质 - Google Patents
智能问答方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117093699B CN117093699B CN202311360246.5A CN202311360246A CN117093699B CN 117093699 B CN117093699 B CN 117093699B CN 202311360246 A CN202311360246 A CN 202311360246A CN 117093699 B CN117093699 B CN 117093699B
- Authority
- CN
- China
- Prior art keywords
- screened
- language model
- web page
- content
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012216 screening Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009193 crawling Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种智能问答方法、装置、设备及介质,涉及自然语言处理技术领域。该方法包括提取第一文本中的关键词,其中,第一文本为用户输入的针对第一问题的文本;基于关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与第一问题相关;对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,筛选后的网页内容与第一问题相关;基于筛选后的网页内容,利用预设大语言模型生成针对第一问题的答案。本发明的方法借助预设大语言模型对筛选后的网页内容进行整合后生成的针对问题的答案,在保证答案具有一定的逻辑性的同时,还保证了问答的时效性,实现了回答实时问题的目的。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种智能问答方法、装置、设备及介质。
背景技术
随着人工智能(Artificial Intelligence,AI)的发展越来越多的人开始关注AI的应用场景。其中,智能问答被认为是AI能够大显身手的领域之一。智能问答是一种利用人工智能技术实现自然语言问答的方法。现有智能问答技术是基于语料库的智能问答技术,其存在仅能回答历史问题,无法回答实时问题的问题。
发明内容
本发明的目的在于提供一种智能问答方法、装置、设备及介质,用以解决现有智能问答方法无法回答实时问题的问题。
为了达到上述目的,本发明提供一种智能问答方法,该方法包括:
提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案。
其中,所述提取第一文本中的关键词,包括:
将所述第一文本和预先生成的第一提示信息输入至所述预设大语言模型,获得所述第一文本中的关键词;
其中,所述第一提示信息用于指示所述预设大语言模型基于所述第一问题从所述第一文本中筛选关键词,并按照预设规则对筛选出的关键词排序后,按照预设格式输出处理结果。
其中,所述基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,包括:
调用搜索引擎,将所述关键词输入至所述搜索引擎,获得与所述关键词相关的至少一条网页搜索结果;
利用所述预设大语言模型对至少一条所述网页搜索结果进行筛选,筛选后的网页搜索结果对应的URL。
其中,所述利用预设大语言模型对至少一条所述网页搜索结果进行筛选,获得筛选后的网页搜索结果对应的URL,包括:
将至少一条所述网页搜索结果和预先生成的第二提示信息输入至所述预设大语言模型,获得筛选后的网页搜索结果;其中,所述第二提示信息用于指示所述预设大语言模型,按照第一预设要求从至少一条所述网页搜索结果中筛选出与所述第一问题相关的网页搜索结果;
获得所述筛选后的网页搜索结果对应的URL。
其中,所述对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,包括:
基于所述筛选到的URL爬取网页内容;
将爬取到的网页内容和预先生成的第三提示信息输入至所述预设大语言模型,获得输出结果;其中,所述第三提示信息用于指示所述预设大语言模型基于所述第一问题判断所述爬取到的网页内容是否与所述第一问题相关,并输出结果;
在所述输出结果表示所述爬取到的网页内容与所述第一问题相关的情况下,将该爬取到的网页内容确定为筛选后的网页内容。
其中,所述基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案,包括:
将所述筛选后的网页内容和预先生成的第四提示信息输入至所述预设大语言模型,生成针对所述第一问题的答案;
其中,所述第四提示信息用于指示所述预设大语言模型按照第二预设要求整合所述筛选后的网页内容并输出整合后的文本;所述整合后的文本为针对所述第一问题的答案。
本发明实施例还提供一种智能问答装置,包括:
提取模块,用于提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
第一处理模块,用于基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
第二处理模块,用于对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
答案生成模块,用于基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案。
本发明实施例还提供一种智能问答设备,包括处理器和收发器,所述收发器在处理器的控制下接收和发送数据,所述处理器用于执行以下操作:
提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案。
本发明实施例还提供一种智能问答设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现如上述所述的智能问答方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现如上述所述的智能问答方法中的步骤。
本发明的上述技术方案至少具有如下有益效果:
本发明实施例中,通过提取第一文本中的关键词,其中,该第一文本为用户输入的针对第一问题的文本;基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与第一问题相关;对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与第一问题相关;最后基于所述筛选后的内容,利用预设大预言模型生成针对第一问题的答案,这样,利用预设大语言模型实现了对URL的智能筛选,而且通过筛选后的URL爬取到的网页内容是实时数据,基于此借助预设大语言模型对筛选后的网页内容进行整合后生成的针对问题的答案,在保证答案具有一定的逻辑性的同时,还保证了问答的时效性,实现了回答实时问题的目的。
附图说明
图1表示本发明实施例的智能问答方法的流程示意图之一;
图2表示本发明实施例的智能问答方法的流程示意图之二;
图3表示本发明实施例的智能问答装置的模块示意图;
图4表示本发明实施例的智能问答设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
现有基于语料库的智能问答技术,其大致流程为:
1)数据采集与预处理:从不同的渠道收集大量的问答数据,并对其进行清洗、去噪和去重处理;
2)特征提取:将处理后的问答数据转化为可以供算法使用的特征向量表示形式,通常包括人工设计、统计分析和自然语言处理等多种方法;
3)问答分类模型训练:根据已有的问答数据和特征向量,使用判别式模型(例如支持向量机、逻辑回归等)进行训练和学习,生成可用于问题分类的模型;
4)问题分类:针对用户输入的问题,根据已训练好的分类模型进行分类,将问题判定为不同类别;
5)匹配和返回答案:根据问题所属类别和对应的问答语料,选择合适的答案,然后返回结果。
上述基于语料库的智能问答方案存在以下缺点:
1)数据的局限性:由于该技术的问答模型需要输入训练数据和特征提取方法,因此对于缺乏足够数据或特征提取模型的领域,可能无法进行有效的问答;
2)人工成本高:针对不同领域、项目,需要收集大量问答语料,人工成本高;
3)回答效果有限:该技术的问答过程也很大程度上依赖于模块化的流程和先验知识,所以对于复杂的、实时的问题,无法做出准确的答复。
为了解决上述技术问题,本发明提供一种智能问答方法、装置、设备及介质。其中,方法和装置是基于同一申请构思的,由于方法和装置解决问题的原理相似,因此装置和方法的实施可以相互参见,重复之处不再赘述。
如图1所示,为本发明实施例提供的智能问答方法的流程示意图。该方法可具体包括:
步骤101,提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
这里,在该步骤101之前,先获取第一文本,即用户输入的针对第一问题的文本,即用户输入的文本类型问题,即用户问题ask。例如:第一问题是“张三这次亚洲之行有哪些活动?”
需要说明的是,可以通过分词器分词的方式,提取第一文本中的关键词。还可通过如下实现方式提取第一文本中的关键词。
在一可选地实现方式中,该步骤101具体可包括:
步骤1011,将所述第一文本和预先生成的第一提示信息输入至所述预设大语言模型,获得所述第一文本中的关键词;其中,所述第一提示信息用于指示所述预设大语言模型基于所述第一问题从所述第一文本中筛选关键词,并按照预设规则对筛选出的关键词排序后,按照预设格式输出处理结果。
这里,预设大语言模型可以是chatGPT、chatGLM等通用大语言模型。可利用预设大语言模型对第一文本进行关键词提取和重要性排序。
需要说明的是,需预先基于prompt模板生成第一提示信息。具体来说,按照prompt模板(即prompt_template_1)进行拼接,生成完整的提示词prompt_1(即第一提示信息)。例如,f“根据用户问题{ask},从第一文本中筛选关键词,并按其重要性进行排序,以列表list格式返回”,之后,将提示词prompt_1和第一文本作为预设大语言模型的输入,利用预设大语言模型得到关键词列表keyword_list,例如,keyword_list=[“张三”,“亚洲之行”,“这次”,“活动”,“有哪些”]。
步骤102,基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
在一可选地实施例中,该步骤102具体可包括:
步骤1021,调用搜索引擎,将所述关键词输入至所述搜索引擎,获得与所述关键词相关的至少一条网页搜索结果;
具体的,在筛选出的关键词为多个时,可选取按照预设规则对筛选出的关键词的排序中排在前N位的关键词,作为搜索关键词输入至搜索引擎内进行相关搜索。
其中,每条网页搜索结果包括:标题title、链接URL和概要abstruct等字段。
需要说明的是,借助搜索引擎获得多条网页搜索结果,可实现实时问答。
步骤1022,利用所述预设大语言模型对至少一条所述网页搜索结果进行筛选,筛选后的网页搜索结果对应的URL。
这里,利用预设大语言模型对网页搜索结果进行筛选,能够节省人工成本,同时起到对网页搜索结果进行把控的目的。具体实现过程可参见下述实施例。
在一可选地实施例中,步骤1022可包括:
1)将至少一条所述网页搜索结果和预先生成的第二提示信息输入至所述预设大语言模型,获得筛选后的网页搜索结果;其中,所述第二提示信息用于指示所述预设大语言模型,按照第一预设要求从至少一条所述网页搜索结果中筛选出与所述第一问题相关的网页搜索结果;
这里,需预先结合用户问题和网页搜索结果(如标题和概要),按照prompt模板(即prompt_template_2)进行拼接,生成完整的提示词prompt_2(即第二提示信息)。例如,f“根据用户问题{ask},从网页搜索结果中与用户问题相关的内容,要求:过滤广告内容,不得编造信息。\n\n搜索结果:\n标题1:{title_1},概要1:{abstruct_1};\n标题2:{title_2},概要2:{abstruct_2};\n……标题n:{title_n},概要n:{abstruct_n };\n\n按照要求,以列表list格式返回所有符合的标题。”;之后,将提示词prompt_2和至少一条网页搜索结果作为预设大语言模型的输入,利用预设大语言模型对所有网页搜索结果进行筛选,获得筛选后的网页搜索结果。
2)获得所述筛选后的网页搜索结果对应的URL。
这里,将筛选后的网页搜索结果作为待爬取项,即URL_list。
步骤103,对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
在一可选地实施例中,上述步骤103可包括:
步骤1031,基于所述筛选到的URL爬取网页内容;
需要说明的是,针对每个筛选到的URL,基于该筛选到的URL进行网络爬取,获得爬取到的网页内容content,最后得到所有筛选到的URL对应爬取到的网页内容,记录到content_list;并与对应的标题title、链接URL等信息一同记录下来,得到info_list。
步骤1032,将爬取到的网页内容和预先生成的第三提示信息输入至所述预设大语言模型,获得输出结果;其中,所述第三提示信息用于指示所述预设大语言模型基于所述第一问题判断所述爬取到的网页内容是否与所述第一问题相关,并输出结果;
需要说明的是,需预先结合用户问题和爬取到的网页内容(如标题和内容),按照prompt模板(即prompt_template_3)进行拼接,循环content_list,针对第i项,即content_i,生成完整的提示词prompt_3_i,例如:f“根据用户问题{ask},判断以下内容是否与用户问题有关。\n\n内容:{content_i}\n\n按照要求,判定相关返回1,不相关则返回0。”之后,循环将prompt_3_i(每次i取值不同)和对应爬取到的网页内容作为预设大语言模型的输入,利用预设大语言模型对所有爬取的网页内容进行筛选,获得输出结果。
这里,输出结果有两种,一者是1,表示爬取到的网页内容与所述第一问题相关;另一者是0,表示爬取到的网页内容与所述第一问题不相关。
步骤1033,在所述输出结果表示所述爬取到的网页内容与所述第一问题相关的情况下,将该爬取到的网页内容确定为筛选后的网页内容。
步骤104,基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案。
在一可选地实施例中,上述步骤104可包括:
步骤1041,将所述筛选后的网页内容和预先生成的第四提示信息输入至所述预设大语言模型,生成针对所述第一问题的答案;其中,所述第四提示信息用于指示所述预设大语言模型按照第二预设要求整合所述筛选后的网页内容并输出整合后的文本;所述整合后的文本为针对所述第一问题的答案。
需要说明的是,需预先结合用户问题和筛选后的网页内容new_content_list,可选取筛选后的网页内容中的一部分内容,例如选取new_content_list中的前N项[content_1,content_2……content_n],按照prompt模板(即prompt_template_4)进行拼接,生成一条提示词prompt_4,例如:f“根据用户问题{ask},将以下内容进行整合,生成对应的答案,要求:过滤广告内容,不得编造信息。\n\n内容1:{content_1};\n内容2:{content_2};\n……内容n:{content_n};\n\n按照要求,返回答案。”之后将prompt_4和筛选后的网页内容作为预设大语言模型的输入,利用预设大语言模型对所有筛选后的网页内容进行整合,生成的文本即答案。
这里,借助预设大语言模型,将多个筛选后的网页内容第二预设要求进行整合,去除不相关信息,并保证一定的逻辑性。
需要说明的是,预设大语言模型除了输出答案外,还可输出其他信息,比如标题title和概要abstruct。
本发明实施例的智能问答方法,利用预设大语言模型实现了对URL的智能筛选,而且通过筛选后的URL爬取到的网页内容是实时数据,基于此借助预设大语言模型对筛选后的网页内容进行整合后生成的针对问题的答案,在保证答案具有一定的逻辑性的同时,还保证了问答的时效性,实现了回答实时问题的目的。
参见图2,下面通过一示例,具体说明本发明实施例的智能问答方法的实施流程。
1)获取输入文本:获取用户输入的文本类型问题,即用户问题ask, 例如:用户问题是“张三这次亚洲之行有哪些活动?”;
2)提取关键词:利用大语言模型(如:ChatGPT、ChatGLM等)对用户输入的文本进行关键词提取和重要性排序,具体来说:按照prompt模板(即prompt_template_1)进行拼接,生成完整的提示词prompt_1,例如:f"根据用户问题{ask},从中筛选关键词,并按其重要性进行排序,以列表list格式返回",将提示词prompt_1作为大语言模型的输入,利用大语言模型得到关键词列表keywords_list,例如:keywords_list=["张三","亚洲之行","这次","活动","有哪些"];
3)调用搜索API:选取keywords_list的TopN作为搜索关键词,并作为搜索引擎接口(API)的入参,搜索结果中通常为多条信息,每条信息包含:标题title、链接URL和概要abstruct等字段;
4)筛选URL:结合用户问题和搜索结果信息(标题和概要),按照prompt模板(即prompt_template_2)进行拼接,生成完整的提示词prompt_2,例如:f"根据用户问题{ask},从搜索结果中筛选与之有关的内容, 要求:过滤广告内容,不得编造信息。\n\n搜索结果:\n标题1:{title_1},概要1:{abstruct_1};\n标题2:{title_2},概要2:{abstruct_2};\n……标题n:{title_n},概要n:{abstruct_n };\n\n按照要求,以列表list格式返回所有符合的标题。";将提示词prompt_2作为大语言模型的输入,利用大语言模型对所有搜索结果进行筛选,并将筛选结果所对应的URL作为待爬取项,即URL_list;
5)爬取网页内容:针对URL_list,循环其中每个URL进行网络爬取,得到其网页内容content,将其记录到content_list,并与对应的标题title、链接URL等信息一同记录下来,得到info_list;
6)筛选内容:结合用户问题以及爬取结果信息(标题和内容),按照prompt模板(即prompt_template_3)进行拼接,循环content_list,针对第i项,即content_i,生成完整的提示词prompt_3_i,例如:f"根据用户问题{ask},判断以下内容是否与用户问题有关。\n\n内容:{content_i}\n\n按照要求,判定相关返回1,不相关则返回0。";循环将prompt_3_i作为大语言模型的输入,通过大语言模型对所有爬取结果进行筛选,得到new_content_list;
7)生成答案:结合用户问题与筛选后的内容,选取new_content_list中的TopN项[content_1,content_2……content_n],按照prompt模板(即prompt_template_4)进行拼接,生成一条提示词prompt_4,例如:f"根据用户问题{ask},将以下内容进行整合,生成对应的答案,要求:过滤广告内容,不得编造信息。\n\n内容1:{content_1};\n内容2:{content_2};\n……内容n:{content_n};\n\n按照要求,返回答案。",将prompt_4作为大语言模型的输入,通过大语言模型对所有内容进行整合,生成的文本即为答案;
8)返回答案:将大语言模型生成的答案,及其他信息(标题title和概要abstruct)返回。
该示例中通过大语言模型进行关键词提取、URL筛选、内容筛选和答案生成,节省人工成本,同时也能对搜索结果进行多层次把控,保证答案的可用性和准确性。
如图3所示,本发明实施例还提供一种智能问答装置,该装置包括:
提取模块301,用于提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
第一处理模块302,用于基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
第二处理模块303,用于对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
答案生成模块304,用于基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案。
可选地,提取模块301可包括:
提取单元,用于将所述第一文本和预先生成的第一提示信息输入至所述预设大语言模型,获得所述第一文本中的关键词;
其中,所述第一提示信息用于指示所述预设大语言模型基于所述第一问题从所述第一文本中筛选关键词,并按照预设规则对筛选出的关键词排序后,按照预设格式输出处理结果。
可选地,第一处理模块302包括:
第一处理单元,用于调用搜索引擎,将所述关键词输入至所述搜索引擎,获得与所述关键词相关的至少一条网页搜索结果;
第二处理单元,用于利用所述预设大语言模型对至少一条所述网页搜索结果进行筛选,筛选后的网页搜索结果对应的URL。
可选地,第二处理单元具体用于:
将至少一条所述网页搜索结果和预先生成的第二提示信息输入至所述预设大语言模型,获得筛选后的网页搜索结果;其中,所述第二提示信息用于指示所述预设大语言模型,按照第一预设要求从至少一条所述网页搜索结果中筛选出与所述第一问题相关的网页搜索结果;
获得所述筛选后的网页搜索结果对应的URL。
可选地,第二处理模块303包括:
内容爬取单元,用于基于所述筛选到的URL爬取网页内容;
第三处理单元,用于将爬取到的网页内容和预先生成的第三提示信息输入至所述预设大语言模型,获得输出结果;其中,所述第三提示信息用于指示所述预设大语言模型基于所述第一问题判断所述爬取到的网页内容是否与所述第一问题相关,并输出结果;
在所述输出结果表示所述爬取到的网页内容与所述第一问题相关的情况下,将该爬取到的网页内容确定为筛选后的网页内容。
可选地,答案生成模块304包括:
答案生成单元,用于将所述筛选后的网页内容和预先生成的第四提示信息输入至所述预设大语言模型,生成针对所述第一问题的答案;
其中,所述第四提示信息用于指示所述预设大语言模型按照第二预设要求整合所述筛选后的网页内容并输出整合后的文本;所述整合后的文本为针对所述第一问题的答案。
本发明实施例的智能问答装置,通过提取第一文本中的关键词,其中,该第一文本为用户输入的针对第一问题的文本;基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与第一问题相关;对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与第一问题相关;最后基于所述筛选后的内容,利用预设大预言模型生成针对第一问题的答案,这样,利用预设大语言模型实现了对URL的智能筛选,而且通过筛选后的URL爬取到的网页内容是实时数据,基于此借助预设大语言模型对筛选后的网页内容进行整合后生成的针对问题的答案,在保证答案具有一定的逻辑性的同时,还保证了问答的时效性,实现了回答实时问题的目的。
为了更好的实现上述目的,如图4所示,本发明实施例还提供一种智能问答设备,包括处理器400和收发器410,所述收发器410在处理器400的控制下接收和发送数据,所述处理器400用于执行如下过程:
提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案。
可选地,处理器400还用于:
将所述第一文本和预先生成的第一提示信息输入至所述预设大语言模型,获得所述第一文本中的关键词;
其中,所述第一提示信息用于指示所述预设大语言模型基于所述第一问题从所述第一文本中筛选关键词,并按照预设规则对筛选出的关键词排序后,按照预设格式输出处理结果。
可选地,处理器400还用于:
调用搜索引擎,将所述关键词输入至所述搜索引擎,获得与所述关键词相关的至少一条网页搜索结果;
利用所述预设大语言模型对至少一条所述网页搜索结果进行筛选,筛选后的网页搜索结果对应的URL。
可选地,处理器400还用于:
将至少一条所述网页搜索结果和预先生成的第二提示信息输入至所述预设大语言模型,获得筛选后的网页搜索结果;其中,所述第二提示信息用于指示所述预设大语言模型,按照第一预设要求从至少一条所述网页搜索结果中筛选出与所述第一问题相关的网页搜索结果;
获得所述筛选后的网页搜索结果对应的URL。
可选地,处理器400还用于:
基于所述筛选到的URL爬取网页内容;
将爬取到的网页内容和预先生成的第三提示信息输入至所述预设大语言模型,获得输出结果;其中,所述第三提示信息用于指示所述预设大语言模型基于所述第一问题判断所述爬取到的网页内容是否与所述第一问题相关,并输出结果;
在所述输出结果表示所述爬取到的网页内容与所述第一问题相关的情况下,将该爬取到的网页内容确定为筛选后的网页内容。
可选地,处理器400还用于:
将所述筛选后的网页内容和预先生成的第四提示信息输入至所述预设大语言模型,生成针对所述第一问题的答案;
其中,所述第四提示信息用于指示所述预设大语言模型按照第二预设要求整合所述筛选后的网页内容并输出整合后的文本;所述整合后的文本为针对所述第一问题的答案。
本发明实施例的智能问答设备,通过提取第一文本中的关键词,其中,该第一文本为用户输入的针对第一问题的文本;基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与第一问题相关;对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与第一问题相关;最后基于所述筛选后的内容,利用预设大预言模型生成针对第一问题的答案,这样,利用预设大语言模型实现了对URL的智能筛选,而且通过筛选后的URL爬取到的网页内容是实时数据,基于此借助预设大语言模型对筛选后的网页内容进行整合后生成的针对问题的答案,在保证答案具有一定的逻辑性的同时,还保证了问答的时效性,实现了回答实时问题的目的。
本发明实施例还提供一种智能问答设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的智能问答方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的智能问答方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中,使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种智能问答方法,其特征在于,包括:
提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案;
所述基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,包括:
调用搜索引擎,将所述关键词输入至所述搜索引擎,获得与所述关键词相关的至少一条网页搜索结果;
利用所述预设大语言模型对至少一条所述网页搜索结果进行筛选,筛选后的网页搜索结果对应的URL。
2.根据权利要求1所述的方法,其特征在于,所述提取第一文本中的关键词,包括:
将所述第一文本和预先生成的第一提示信息输入至所述预设大语言模型,获得所述第一文本中的关键词;
其中,所述第一提示信息用于指示所述预设大语言模型基于所述第一问题从所述第一文本中筛选关键词,并按照预设规则对筛选出的关键词排序后,按照预设格式输出处理结果。
3.根据权利要求1所述的方法,其特征在于,所述利用预设大语言模型对至少一条所述网页搜索结果进行筛选,获得筛选后的网页搜索结果对应的URL,包括:
将至少一条所述网页搜索结果和预先生成的第二提示信息输入至所述预设大语言模型,获得筛选后的网页搜索结果;其中,所述第二提示信息用于指示所述预设大语言模型,按照第一预设要求从至少一条所述网页搜索结果中筛选出与所述第一问题相关的网页搜索结果;
获得所述筛选后的网页搜索结果对应的URL。
4.根据权利要求1所述的方法,其特征在于,所述对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,包括:
基于所述筛选到的URL爬取网页内容;
将爬取到的网页内容和预先生成的第三提示信息输入至所述预设大语言模型,获得输出结果;其中,所述第三提示信息用于指示所述预设大语言模型基于所述第一问题判断所述爬取到的网页内容是否与所述第一问题相关,并输出结果;
在所述输出结果表示所述爬取到的网页内容与所述第一问题相关的情况下,将该爬取到的网页内容确定为筛选后的网页内容。
5.根据权利要求1所述的方法,其特征在于,所述基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案,包括:
将所述筛选后的网页内容和预先生成的第四提示信息输入至所述预设大语言模型,生成针对所述第一问题的答案;
其中,所述第四提示信息用于指示所述预设大语言模型按照第二预设要求整合所述筛选后的网页内容并输出整合后的文本;所述整合后的文本为针对所述第一问题的答案。
6.一种智能问答装置,其特征在于,包括:
提取模块,用于提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
第一处理模块,用于基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
第二处理模块,用于对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
答案生成模块,用于基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案;
所述第一处理模块包括:
第一处理单元,用于调用搜索引擎,将所述关键词输入至所述搜索引擎,获得与所述关键词相关的至少一条网页搜索结果;
第二处理单元,用于利用所述预设大语言模型对至少一条所述网页搜索结果进行筛选,筛选后的网页搜索结果对应的URL。
7.一种智能问答设备,包括处理器和收发器,所述收发器在处理器的控制下接收和发送数据,其特征在于,所述处理器用于执行以下操作:
提取第一文本中的关键词,其中,所述第一文本为用户输入的针对第一问题的文本;
基于所述关键词和预设大语言模型,获得筛选后的统一资源定位符URL,筛选后的URL与所述第一问题相关;
对基于筛选后的URL所爬取到的网页内容进行筛选,获得筛选后的网页内容,所述筛选后的网页内容与所述第一问题相关;
基于所述筛选后的网页内容,利用所述预设大语言模型生成针对所述第一问题的答案;
所述处理器还用于:
调用搜索引擎,将所述关键词输入至所述搜索引擎,获得与所述关键词相关的至少一条网页搜索结果;
利用所述预设大语言模型对至少一条所述网页搜索结果进行筛选,筛选后的网页搜索结果对应的URL。
8.一种智能问答设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的智能问答方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5任一项所述的智能问答方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360246.5A CN117093699B (zh) | 2023-10-20 | 2023-10-20 | 智能问答方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360246.5A CN117093699B (zh) | 2023-10-20 | 2023-10-20 | 智能问答方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117093699A CN117093699A (zh) | 2023-11-21 |
CN117093699B true CN117093699B (zh) | 2024-01-02 |
Family
ID=88775691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311360246.5A Active CN117093699B (zh) | 2023-10-20 | 2023-10-20 | 智能问答方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093699B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312534B (zh) * | 2023-11-28 | 2024-02-23 | 南京中孚信息技术有限公司 | 一种基于保密知识库的智能问答实现方法、装置及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595148A (zh) * | 2023-05-25 | 2023-08-15 | 北京快牛智营科技有限公司 | 一种利用大型语言模型实现对话流程的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189557B2 (en) * | 2013-03-11 | 2015-11-17 | Xerox Corporation | Language-oriented focused crawling using transliteration based meta-features |
-
2023
- 2023-10-20 CN CN202311360246.5A patent/CN117093699B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595148A (zh) * | 2023-05-25 | 2023-08-15 | 北京快牛智营科技有限公司 | 一种利用大型语言模型实现对话流程的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117093699A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991645B (zh) | 一种基于知识模型的自适应学习方法、系统及存储介质 | |
CN108182175B (zh) | 一种文本质量指标获取方法及装置 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN110019943B (zh) | 视频推荐方法、装置、电子设备和存储介质 | |
CN106649742A (zh) | 数据库维护方法和装置 | |
CN117093699B (zh) | 智能问答方法、装置、设备及介质 | |
CN108764480A (zh) | 一种信息处理的系统 | |
CN106446195A (zh) | 基于人工智能的新闻推荐方法及装置 | |
CN102646095B (zh) | 一种基于网页分类信息的对象分类方法和系统 | |
US20200175052A1 (en) | Classification of electronic documents | |
CN114116998A (zh) | 答复语句生成方法、装置、计算机设备和存储介质 | |
CN112182237A (zh) | 题目知识点关联方法、题目知识点关联系统和存储介质 | |
EP3576024A1 (en) | Accessible machine learning | |
CN116756576B (zh) | 数据处理方法、模型训练方法、电子设备及存储介质 | |
Volna et al. | Pattern recognition and classification in time series data | |
KR102217084B1 (ko) | 하이브리드 추천 시스템 및 방법 | |
CN115659044A (zh) | 一种人岗匹配的推荐方法、系统、电子设备、存储介质 | |
CN109740743A (zh) | 一种分层神经网络查询推荐方法及装置 | |
CN113033178B (zh) | 用于商业计划书的文本评估方法、装置及计算机 | |
Strileţchi et al. | A cross-platform solution for software plagiarism detection | |
CN113988915A (zh) | 用于定位产品客群的方法及装置、电子设备、存储介质 | |
CN114048148A (zh) | 一种众包测试报告推荐方法、装置及电子设备 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
Kusnadi et al. | Certainty Factor-based Expert System for Meat Classification within an Enterprise Resource Planning Framework | |
CN103761289B (zh) | 一种基于历史记录的知识推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |