CN112507105A

CN112507105A - 一种基于微信公众号的多模智能问答系统及方法

Info

Publication number: CN112507105A
Application number: CN202110105614.6A
Authority: CN
Inventors: 王三山; 付巍; 李小凡; 何莲
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-03-16

Abstract

本发明提出了一种基于微信公众号的多模智能问答方法，包括以下步骤：首先将从微信公众号采集的网页信息分析处理，对公众号文章进行编号并提取文章的关键信息；根据文章编号和关键信息构建知识库；然后依据所构建的知识库进行智能问答交互本发明通过多维智能问答的形式为用户提供了一种体验良好的优质内容智能服务，用精细的方式来组织生成应答信息，对于用户提出的问题，在与知识库的显式信息进行匹配之后，根据匹配信息获取进一步的信息数据，并基于获取到的信息数据进行知识提炼，从而为用户提供摘要式的应答信息；另外，这种方式下知识库只需用较少的数据量便可根据用户问题组织生成详尽的应答信息。

Description

一种基于微信公众号的多模智能问答系统及方法

技术领域

本发明属于智能问答领域，具体涉及一种基于微信公众号的多模智能问答系统及方法。

背景技术

近年来，受益于信息网络技术的飞速发展，新兴媒体对以广播、电视、报纸和杂志为代表的传统媒体产生了巨大冲击，传统媒体纷纷加快转型升级，传统媒体与新兴媒体的融合发展取得了良好成效。在此基础上，随着国家政策以及相关技术条件日趋成熟，以人工智能等下一代信息技术赋能媒体融合，由融媒体向智媒体发展已是大势所趋。现有智能问答技术的信息交互形式比较单调，多以单一的文本信息、语音信息的模式实现一问一答。

微信公众号与技术发展紧密联系，具有内容丰富、形式多样、传播力强等优点，是融媒体时代信息传播的一个重要途径，围绕微信公众号开展智能化研究应用具有广阔空间。当下，基于微信公众号的智能化研究应用主要集中在内容创作和营销策略两个方面，但对用户个性化服务、用户主动性发挥等方面的关注度还比较少，其潜力还未得到充分挖掘和利用。

现有智能问答技术组织生成应答信息的方式比较粗放，对于用户提出的问题多直接以知识库的显式信息作为应答信息，用户需要自己进行知识提炼；另外，在这种方式下若想构建更详尽的知识库显式信息往往只能以庞大的知识库数据量为代价，并且智能问答技术的应用功能比较局限，多限于微信公众号本身的客户服务功能或简单的推送功能等浅层次应用。

发明内容

为了解决现有技术的不足，本发明旨在提供一种一种基于微信公众号的多模智能问答方法，将智能问答技术与微信公众号丰富多样的内容形式相结合，突破了常见的客户服务功能和简单的推送功能的限制，充分利用微信公众号丰富的内容构建知识库，立足于用户个性化的主动需求，通过多维智能问答的形式为用户提供了一种体验良好的优质内容智能服务。

为了实现上述目的，本发明采用的技术方案为：

一种基于微信公众号的多模智能问答系统，包括信息采集模块、信息分析模块、知识库构建模块、用户请求信息接收模块、用户请求信息理解模块、多模应答信息生成模块、多模应答信息输出模块；

所述信息采集模块：用于通过爬虫或微信官方API(Application ProgramInterface，应用程序接口)方式对指定微信公众号的信息进行采集；

所述信息分析模块：用于通过网页分析、数据清洗、数据预处理对采集到的信息数据进行分析处理，提取出构建知识库所需要的相关信息数据；

所述知识库构建模块：用于对所述信息分析模块提取出来的信息数据进行知识库构建；

所述用户请求信息接收模块：用于从文本输入或语音输入接口接收用户的请求信息，接收到的用户请求信息即视为用户提出的问题；其中若用户请求信息为文本输入，则直接对接收到的文本信息进行数据清洗，若为语音输入，则首先采用语音识别技术将接收到的语音信息转化为文本信息后再进行数据清洗；

所述用户请求信息理解模块：用于通过NLP（Natural Language Process，自然语言处理）技术对所述用户请求信息接收模块中已清洗的数据进行处理；

所述多模应答信息生成模块：用于通过所述用户请求信息理解模块的数据处理对用户请求信息的理解；按照一定规则进行知识库搜索，返回最匹配的搜索结果，根据该搜索结果包含的信息内容，按照预设规则和相关技术组织生成多模应答信息；

所述多模应答信息输出模块：用于按照规定模板和格式将所述多模应答信息生成模块组织生成的多模应答信息输出给用户；其中若多维应答信息中的文本信息输出部分需要进行语音输出，则采用语音合成技术将文本信息转化为语音信息进行输出。

相应的，本发明还提供基于上述多模智能问答系统实现的多模智能问答方法，包括以下步骤：

1）将从微信公众号采集的网页信息分析处理后构建知识库；具体包括：

11）采集微信公众号网页信息；其中采集对象是指定的一个或多个微信公众号的一定数量的完整的网页信息；

12）对采集到的网页信息进行分析处理；分析处理采集到微信公众号的网页信息并挖掘出每一篇公众号文章相关的信息；

13）对公众号文章进行编号并提取文章的关键信息；对挖掘出来的每一篇公众号文章按照顺序进行编号，提取每一篇公众号文章所对应的关键信息；其中关键信息包括文章标题、发布时间、发布者、文章URL；

14）根据步骤13）的文章编号和关键信息构建知识库；以文章编号为索引，将其与提取出来的对应的公众号文章的关键信息合并为一个信息条，以此来构建知识库；

2）依据步骤1）中所构建的知识库进行智能问答交互；具体包括：

21）接收用户请求信息；以文本输入或语音输入的方式接收用户的请求信息并转换为文本信息，实现用户请求信息的接收，即用户提出的问题表现为文本信息的形式；

22）清洗用户请求信息；其中包含对非常规字符、标点符号以及冗余数据的数据清洗；

23）提取用户请求信息关键词组；接收到的用户请求主要为中文字符，对步骤22）中已清洗数据采用NLP方法对中文分词、词性标注、词性分类、关键词进行处理，处理后得到一个包括1~5个关键词的关键词组；

24）根据用户请求信息关键词组搜索知识库；将步骤23）中得到的用户请求信息的关键词组与知识库中的文章标题关键词组逐一比对，进行关键词组相似度打分，遍历知识库，得分最高的文章标题关键词组所对应的信息条索引值即为与搜索最匹配的索引值，以此索引值作为本次搜索的搜索结果；

25）根据搜索结果定位知识库信息条，组织生成多模应答信息；其中步骤24）返回的搜索结果是一个与搜索最匹配的索引值，将此索引值指向的知识库信息条用来组织生成多模应答信息；

26）按照规定模板和格式输出多模应答信息；其中组织生成的多模应答信息按照预设好的模板和格式进行输出。

其中，步骤25具体包括：在定位知识库信息条之后，根据信息条中的文章URL实时在线采集该文章的网页信息，通过网页分析、数据清洗技术对网页信息进行分析处理，提取出该文章的信息内容；

其中多模应答信息的信息模式可根据信息内容和预设规则来设定，包括文本信息、图片信息、视音频信息和文章URL信息；文本信息包含文章标题和文章内容摘要，文章标题和文章URL信息直接从知识库信息条中获取；文章内容摘要是根据文章的URL实时在线下载文章网页，提取其中的文本信息，然后采用NLP的文本摘要方法获取；

图片信息包含JPEG静图和GIF动图；图片信息和视音频信息是从文章网页中提取图片和视音频的URL，然后根据提取到的图片和视音频的URL实时在线下载获取。

步骤26）输出的多模应答信息中，文本信息以文本输出框的形式输出，文章URL信息以超链接的形式输出，图片信息以相册的形式输出，视音频信息以视音频播放窗的形式输出。

所述文章内容摘要的数量为5句以下，JPEG静图的数量为10张以下，GIF动图的数量为5张以下，视频信息的数量为3个以下。

本发明具有的有益效果为：

1.本发明的信息交互形式丰富，用户以文本信息、语音信息提出问题后，本技术以包括文本信息、图片信息、视音频信息等多种丰富多样的信息模式进行答案输出，这种交互方式更加符合自然的人类认知习惯。

2.本发明采取一种精细的方式来组织生成应答信息，对于用户提出的问题，在与知识库的显式信息进行匹配之后，根据匹配信息获取进一步的信息数据，并基于获取到的信息数据进行知识提炼，从而为用户提供摘要式的应答信息；另外，这种方式下知识库只需用较少的数据量便可根据用户问题组织生成详尽的应答信息。

3.本发明基于微信公众号的智能问答技术的深层次应用，用户通过摘要式的应答信息能够快速精准地获取相关知识，并在此基础上决定是否进行公众号文章精读以提升认知，突破了常见的客户服务功能和简单的推送功能的限制，充分利用微信公众号丰富的内容构建知识库，立足于用户个性化的主动需求，通过多维智能问答的形式为用户提供了一种体验良好的优质内容智能服务。

4.本发明具有较好的拓展性和移植性，能够便利地对包含丰富信息模式的其它传播介质进行知识提炼，并基于提炼出来的知识进构建对应的智能问答系统。

附图说明

图1为本发明多模智能问答系统的系统结构图；

图2为本发明构建知识库的流程图；

图3为本发明智能问答交互的流程图。

具体实施方式

本发明提出了一种基于微信公众号的多模智能问答系统，包括信息采集模块、信息分析模块、知识库构建模块、用户请求信息接收模块、用户请求信息理解模块、多模应答信息生成模块、多模应答信息输出模块。

信息采集模块通过爬虫或微信官方API(Application Program Interface，应用程序接口)方式对指定微信公众号的信息进行采集。

信息分析模块通过网页分析、数据清洗、数据预处理对采集到的信息数据进行分析处理，提取出构建知识库所需要的相关信息数据。

知识库构建模块对信息分析模块提取出来的信息数据进行知识库构建。知识库具体形式可根据实际情况进行选择，比如基于传统SQL数据库的结构化数据库形式、基于图数据库的知识图谱的形式，或者上述二者结合的形式等等；

用户请求信息接收模块从文本输入或语音输入接口接收用户的请求信息，接收到的用户请求信息即视为用户提出的问题。若用户请求信息为文本输入，则直接对接收到的文本信息进行数据清洗，若为语音输入，则首先采用语音识别技术将接收到的语音信息转化为文本信息后再进行数据清洗。

用户请求信息理解模块通过NLP（Natural Language Process，自然语言处理）技术对用户请求信息接收模块中已清洗的数据进行处理，进而实现对用户请求信息的理解。

多模应答信息生成模块通过用户请求信息理解模块的数据处理对用户请求信息的理解；按照一定规则进行知识库搜索，返回最匹配的搜索结果，根据该搜索结果包含的信息内容，比如包含/不包含文本信息、包含/不包含图片信息、包含/不包含视频信息等等，按照预设规则和相关技术组织生成多模应答信息。

多模应答信息输出模块按照规定模板和格式将多模应答信息生成模块组织生成的多模应答信息输出给用户。其中输出的多维应答信息包括文本信息、图片信息、视音频信息、链接信息等多种信息模式。若多维应答信息中的文本信息输出部分需要进行语音输出，则采用语音合成技术将文本信息转化为语音信息进行输出。

11）采集微信公众号网页信息；其中采集对象是指定的一个或多个微信公众号的一定数量的完整的网页信息。

12）对采集到的网页信息进行分析处理；分析处理采集到微信公众号的网页信息并挖掘出每一篇公众号文章相关的信息。

13）对公众号文章进行编号并提取文章的关键信息；对挖掘出来的每一篇公众号文章按照顺序进行编号，提取每一篇公众号文章所对应的关键信息；其中关键信息包括文章标题、发布时间、发布者、文章URL。

14）根据步骤13）的文章编号和关键信息构建知识库；以文章编号为索引，将其与提取出来的对应的公众号文章的关键信息合并为一个信息条，以此来构建知识库。知识库的具体形式可以根据需要灵活选择，可以采用传统SQL数据库的形式来构建知识库，写入数据库的信息条内容包括文章编号、公众号名称、文章标题、发布时间、文章URL和文章标题关键词组，文章标题关键词组是通过NLP方法对文章标题进行关键词提取得到的，包括1~5个关键词。

2）依据步骤1）中所构建的知识库进行智能问答交互；具体包括。

22）清洗用户请求信息；接收到的用户请求信息可能包含一些非常规字符、标点符号或者冗余数据，需要对其进行数据清洗以利于下一步处理。

23）提取用户请求信息关键词组；接收到的用户请求主要为中文字符，对步骤22）中已清洗数据采用NLP方法对中文分词、词性标注、词性分类、关键词等进行处理，处理后得到一个包括1~5个关键词的关键词组，此用户请求信息关键词组实现了对用户请求信息的句子级别的语义理解。

24）根据用户请求信息关键词组搜索知识库；将步骤23）中得到的用户请求信息的关键词组与知识库中的文章标题关键词组逐一比对，进行关键词组相似度打分，遍历知识库，得分最高的文章标题关键词组所对应的信息条索引值即为与搜索最匹配的索引值，以此索引值作为本次搜索的搜索结果。

在定位知识库信息条之后，根据信息条中的文章URL实时在线采集该文章的网页信息，通过网页分析、数据清洗技术对网页信息进行分析处理，提取出该文章的信息内容；包括文本信息内容、图片信息内容、视频信息内容等。

26）按照规定模板和格式输出多模应答信息，组织生成的多模应答信息按照预设好的模板和格式进行输出。其中，输出的多模应答信息中，文本信息以文本输出框的形式输出，文章URL信息以超链接的形式输出，图片信息以相册的形式输出，视音频信息以视音频播放窗的形式输出，方便用户浏览。文章内容摘要的数量以5句以下为宜，JPEG静图的数量以10张以下为宜，GIF动图的数量以5张以下为宜，视频信息的数量以3个以下为宜。

本发明将智能问答技术与微信公众号丰富多样的内容形式相结合，研发基于微信公众号的多模智能问答系统和方法，不仅有效填补了这一方面的不足，同时对智媒体的建设发展和人工智能应用场景的落地实践做出了有益探索。

Claims

1.一种基于微信公众号的多模智能问答系统，其特征在于：包括信息采集模块、信息分析模块、知识库构建模块、用户请求信息接收模块、用户请求信息理解模块、多模应答信息生成模块、多模应答信息输出模块；

所述信息采集模块：用于通过爬虫或微信官方API方式对指定微信公众号的信息进行采集；

所述用户请求信息理解模块：用于通过NLP技术对所述用户请求信息接收模块中已清洗的数据进行处理；

2.基于权利要求1所述的多模智能问答系统实现的多模智能问答方法，其特征在于：包括以下步骤：

23）提取用户请求信息关键词组；接收到的用户请求主要为中文字符，对步骤22）中已清洗数据采用NLP方法对中文分词、词性标注、词性分类、关键词进行处理，处理后得到一个包括1至5个关键词的关键词组；

3.根据权利要求2所述的多模智能问答方法，其特征在于：步骤25）具体包括：在定位知识库信息条之后，根据信息条中的文章URL实时在线采集该文章的网页信息，通过网页分析、数据清洗技术对网页信息进行分析处理，提取出该文章的信息内容；

其中多模应答信息的信息模式根据信息内容和预设规则来设定，包括文本信息、图片信息、视音频信息和文章URL信息；文本信息包含文章标题和文章内容摘要，文章标题和文章URL信息直接从知识库信息条中获取；文章内容摘要是根据文章的URL实时在线下载文章网页，提取其中的文本信息，然后采用NLP的文本摘要方法获取；

4.根据权利要求2所述的多模智能问答方法，其特征在于：步骤26）输出的多模应答信息中，文本信息以文本输出框的形式输出，文章URL信息以超链接的形式输出，图片信息以相册的形式输出，视音频信息以视音频播放窗的形式输出。

5.根据权利要求3所述的多模智能问答方法，其特征在于：所述步骤25）中文章内容摘要的数量为5句以下，JPEG静图的数量为10张以下，GIF动图的数量为5张以下，视频信息的数量为3个以下。