CN106789559B - 用于微信公众平台的信息处理方法、装置、及系统 - Google Patents

用于微信公众平台的信息处理方法、装置、及系统 Download PDF

Info

Publication number
CN106789559B
CN106789559B CN201611099698.2A CN201611099698A CN106789559B CN 106789559 B CN106789559 B CN 106789559B CN 201611099698 A CN201611099698 A CN 201611099698A CN 106789559 B CN106789559 B CN 106789559B
Authority
CN
China
Prior art keywords
document
user
information processing
wechat public
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611099698.2A
Other languages
English (en)
Other versions
CN106789559A (zh
Inventor
陈熹
胡晟
张晨
江正平
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201611099698.2A priority Critical patent/CN106789559B/zh
Publication of CN106789559A publication Critical patent/CN106789559A/zh
Application granted granted Critical
Publication of CN106789559B publication Critical patent/CN106789559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/567Integrating service provisioning from a plurality of service providers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于微信公众平台的信息处理方法,该微信公众平台包括平台服务器,该平台服务器中包括与各微信公众号相关联的文档,其特征在于,该信息处理方法包括接入该平台服务器的数据接口;经由该数据接口从该平台服务器接收与预定微信公众号相关联的文档集合;经由该数据接口从该平台服务器接收该预定微信公众号的用户输入的数据;以及基于该用户输入的数据从与该预定微信公众号相关联的文档集合中匹配关联文档。

Description

用于微信公众平台的信息处理方法、装置、及系统
技术领域
本发明涉及移动互联网技术,尤其涉及用于微信公众平台的信息处理方法、装置、及系统。
背景技术
微信是腾讯公司发布的一款为智能终端提供即时通讯服务的免费应用程序,支持跨通信运营商、跨操作系统平台通过网络快速发送免费语音短信、视频、图片和文字。
随着微信用户的增多以及功能愈趋强大,腾讯公司推出了微信公众平台以给个人、企业和组织提供业务服务与用户管理能力。微信公众号是开发者或商家在微信公众平台上申请的应用账号。通过公众号,商家可在微信平台上实现和特定群体的文字、图片、语音、视频的全方位沟通、互动。
微信公众平台由于用户基数较大,现有的微信公众平台无法完全满足用户的需求。例如,目前当微信公众号的订阅用户在客户端进入某一公众号查阅文章内容时,无法按照个人需求快速、准确地搜索到满足要求的文章内容,只能点击“查看历史消息”翻阅文章图文列表。用户当然也无法向微信公众号提出问题以获得解答。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
根据本发明的一方面,提供了一种用于微信公众平台的信息处理方法,该微信公众平台包括平台服务器,该平台服务器中包括与各微信公众号相关联的文档,其特征在于,该信息处理方法包括接入该平台服务器的数据接口;经由该数据接口从该平台服务器接收与预定微信公众号相关联的文档集合;经由该数据接口从该平台服务器接收该预定微信公众号的用户输入的数据;以及基于该用户输入的数据从与该预定微信公众号相关联的文档集合中匹配关联文档。
根据本发明的另一方面,提供了一种用于微信公众平台的信息处理装置,该微信公众平台包括平台服务器,该平台服务器中包括与各微信公众号相关联的文档,其特征在于,该信息处理装置包括:通信模块,该通信模块接入该平台服务器的数据接口,经由该数据接口从该平台服务器接收与预定微信公众号相关联的文档集合以及该预定微信公众号的用户输入的数据;以及匹配模块,用于基于该用户输入的数据从与该预定微信公众号相关联的文档集合中匹配关联文档。
根据本发明的再一方面,还提供了一种信息处理系统,包括微信公众平台和上述的信息处理装置,该微信公众平台包括平台服务器,该平台服务器中包括与各微信公众号相关联的文档。
根据本发明的方案,增强了用户与微信公众号的互动。用户订阅公众号即为获得信息。通过与微信公众号的增强的互动,用户可以主动地在微信公众号中检索感兴趣的内容,甚至可以直接提出问题,从微信公众号的文档集合中获得答案。这大大提高了微信公众号的实用性。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1是示出了根据本发明的一方面的用于微信公众平台的信息处理装置的部署环境的框图;
图2是示出了根据发明的一方面的用于微信公众平台的信息处理装置的框图;
图3是示出了根据本发明的第一实施例的信息处理装置的框图;
图4是示出了根据本发明的第二实施例的信息处理装置的框图;
图5是示出了根据本发明的第三实施例的信息处理装置的框图;以及
图6是示出了根据本发明的一方面的用于微信公众平台的信息处理方法的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
个人、企业和组织可以通过微信公众平台申请微信公众号,申请获得公众微信账号后,可以进入微信公众平台的后台,即登录微信公众平台的平台服务器,以实现实时交流、消息发送和素材管理。
目前,微信公众平台提供的服务仍有一定的局限性,例如与用户主动交互的功能性方面有所欠缺。在本发明中,提供了一个信息处理装置作为对微信公众平台的功能的增补,增强了用户与微信公众号的互动,获得了更多功能性。
图1是示出了根据发明的一方面的用于微信公众平台的信息处理装置的部署环境的框图。
在图1中,部署有微信公众平台的平台服务器110,微信公众平台的服务由平台服务器110提供。在申请获得微信公众号后,公众号管理员通过平台服务器110维护自己的公众号,例如管理公众号的素材,即该公众号向读者发布文章的素材。
平台服务器110可经由网络120与用户终端130通信。例如,用户终端130上可装有微信软件,并订阅了某微信公众号。该微信公众号可向用户终端130上的微信软件推送内容。
这里的用户终端130可以是有线终端或无线终端。终端也可被称为系统、设备、订户单元、订户站、移动站、移动台、移动设备、远程站、远程终端、接入终端、用户终端、终端、通信设备、用户代理、用户设备、或用户装备(UE),例如手机、ipad等等。
这里的网络120可以采用诸如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等各种系统。CDMA系统可实现诸如通用地面无线电接入(UTRA)、cdma2000等无线电技术。TDMA系统可实现诸如全球移动通信系统(GSM)等无线电技术。OFDMA系统可实现诸如演进型UTRA(E-UTRA)、超移动宽带(UMB)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、Flash-OFDM等之类的无线电技术。
微信公众号的管理者可向平台服务器110上传并管理用于发布公众号内容的素材。这些素材被用于制作微信公众号所发布的文章内容。
根据本发明的一方面,提供了信息处理装置140,该信息处理装置140可以接入平台服务器110的数据接口,以与平台服务器110相通信,如图1中的双向箭头所示。这里的“接入”可以是通过有线链接或者无线链接来实现。
图2是示出了根据发明的一方面的用于微信公众平台的信息处理装置200的框图。这里的信息处理装置200可以是图1中所示的信息处理装置140的示例。
如图2所示,信息处理装置200可包括通信模块210和匹配模块220。
信息处理装置200可经由通信模块210接入微信公众平台的平台服务器的数据接口。具体地,通信模块210可经由该数据接口从平台服务器接收与各微信公众号相关联的文档集合。
如前所述,微信公众号的管理者会向平台服务器上传各种素材以制作微信公众号发布的文档。这些文档的集合被存储在平台服务器中。通信模块210可经由该数据接口获取与预定微信公众号相关联的文档集合。
另一方面,通信模块210还可经由该数据接口获取该微信公众号的用户向该微信公众号输入的数据。这里的数据可以是用户向微信公众号输入的关键词或者询问的问题。
例如,该微信公众号可以是旅游相关的公众号,则用户可能希望检索与某个主题相关的内容。为此,用户可输入某个关键词来查询这些内容。或者,用户可能有一个旅游方面的问题,也可以向该微信公众号发出询问,以获得相关的解答。
匹配模块220可基于用户输入的该数据从与该微信公众号相关联的文档集合中匹配关联文档。该关联文档是与用户输入的数据相关的文档。在用户输入的数据是关键词的实例中,该关联文档可以是与关键词相关的文章内容。在用户输入的数据是问题的实例中,该关联文档可以是含有该问题的答案的文章内容。
通信模块210可将关联文档的相关信息经由数据接口输出给用户。
以此方式,用户能够通过向微信公众号输入数据的方式,主动地与微信公众号互动,根据自身的需要,获得更多有明确目的的信息。
图3是示出了根据本发明的第一实施例的信息处理装置300的框图。如图3所示,信息处理装置300可包括通信模块310、检索单元320以及索引化模块330。
通信模块310可经由信息处理装置300与平台服务器的数据接口从平台服务器接收与预定微信公众号相关联的文档集合。索引化模块330可对该文档集合执行索引化分析以获得文档集合的索引化形式的文档数据结构。索引化形式的文档数据结构使得基于关键词的检索成为可能。
作为一个具体示例,索引化形式的文档数据结构可以是倒排索引。倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。
搜索引擎的通常索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项。倒排列表还可记载某个单词的单词频率信息、文档频率信息。根据倒排列表,即可获知哪些文档包含某个单词。所有单词的倒排列表往往顺序地存储在磁盘的某个文件里,这个文件即被称之为倒排文件,倒排文件是存储倒排索引的物理文件。
有了上述索引化的文档数据结构,可以很方便地响应用户的查询。比如用户输入某个关键词,可以查找倒排索引,从中以读出包含这个单词的文档,这些文档就是提供给用户的搜索结果,而利用单词频率信息、文档频率信息即可以对这些候选搜索结果进行排序,计算文档和查询的相似性,按照相似性得分由高到低排序输出。
当然,倒排索引仅仅是一个示例,任何便于基于关键词进行检索的索引化形式都是可行的。
对应该索引化形式的文档数据结构,检索单元320可基于关键词来对该索引化形式的文档数据结构进行检索。这里的检索单元320可以是图2中所示的匹配模块220的具体实例。
在此配置下,通信模块310可经由数据接口从平台服务器接收该微信公众号的用户输入的数据,例如关键词。检索单元320可以基于该关键词从与该微信公众号相关联的索引化形式的文档数据结构检索关联文档。
以此方式,通过对微信公众号中的文章进行索引化,使得微信公众号中的文章能够被方便地查找,从而使得用户能够根据希望阅读的内容,主动地查找和获取相应的文档,相比于传统地单纯浏览所有历史文章的方式,大大提高了效率。
图4是示出了根据本发明的第二实施例的信息处理装置400的框图。
与图3相比,除了通信模块410、检索单元420以及索引化模块430,信息处理装置400还可包括分类模块440。
分类模块440可对文档集合执行分类处理以获得多个不同类别的文档子集。每个文档子集中的每篇文档具有相关联的分类标签以指示该篇文档所属的类别。
这里的类别可以是任何维度的类别。以上旅游相关的微信公众号为例,可以对该微信公众号的文档集合按照旅游区域进行分类,例如与旅游国家相关的类别,可以按照美食进行分类,例如与不同风味的美食相关的类别等等。
具体而言,分类模块440可包括文本分类子单元441和分组子单元442。文本分类单元441可对文档集合中的每篇文档执行文本分类,例如采用SVM分类器或贝叶斯分类器对每篇文档执行文本分类。分组单元442可将属于同一分类类别的文档划分为一个文档子集。
在此实例中,索引化模块430可对每个文档子集执行索引化分析以获得该文档子集的索引化形式的文档数据结构,例如倒排索引结构。
检索单元420可包括类别确定子单元421和查找子单元422。在通信模块410收到用户输入的数据,例如关键词时,类别确定子单元421可基于该关键词确定该关键词所属的类别。
在一实例中,类别确定子单元421可将关键词与所有分类标签执行语义相似度计算,具有最高语义相似度的分类标签指示所述关键词的类别。类别确定子单元421可以任何适用的语义相似度计算算法执行此语义相似度计算,例如,文本聚类分析、LDA分析、序列分析(Template Maker)等等。
查找子单元422可基于关键词从该关键词所属的类别的文档子集的索引化形式的文档数据结构,例如倒排索引,查找关联文档。
通过对文档进行分类后再进行索引化,进一步提高了检索效率,提高了检索的准确性。
图5是示出了根据本发明的第三实施例的信息处理装置500的框图。
如图5所示,信息处理装置500可包括通信模块510、问答数据库构建模块530以及检索单元520。
通信模块310可经由信息处理装置300与平台服务器的数据接口从平台服务器接收与预定微信公众号相关联的文档集合。问答数据库构建模块530可用于基于文档集合构建问答数据库。
如在智能问答领域所熟知的,问答数据库可包括标准问的集合和答案的集合。每个标准问与对应的答案相关联。在接收到问题之后,只要能够定位到问答数据库中的标准问,就可以将该标准问对应的答案输出给用户作为用户问题的答案。所述问答数据库包括知识点,所述知识点包括标准问、扩展问和标准答案,所述标准答案为所述文档集合中的文档,所述扩展问包括与所述标准答案中的文档对应的至少一个问题语义模板。
在本发明中,利用问答数据库构建模块530基于与预定微信公众号相关联的文档集合构建用于该微信公众号的问答数据库。问答数据库中包括问题语义模板和问题语义模板对应的答案,每个问题语义模板对应的答案为所述文档集合中的文档,每个所述文档对应至少一个问题语义模板。用户问句和基于所述用户问句从所述问答数据库中检索对应的答案一般的形式是“问-答”对。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解为“输入”,该“输入”具有对应的“输出”。例如,用户的一个指令,例如“打开收音机相关的文档”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用,本实施例中,答案可以为文档集合中的文档、文档集合中的文档的链接或打开文档集合中的文档的链接。且当用户询问某个问题时,可将能够解答该问题的文档作为答案推送给用户。
从这个角度而言,问答数据库由众多的知识点构成,每个知识点为“问-答”对的形式,其中的“问”包括标准问、扩展问,“答”为与标准问、扩展问对应的标准答案,在本发明中,标准答案即为文档集合中的文档。所述扩展问是对标准问的扩展,因为用户问句往往是各种表达方式,采用扩展问能大大提高匹配效率。
具体而言,扩展问包括与所述标准答案中的文档对应的至少一个问题语义模板,问题语义模板可以是语义表达式的形式,以用于与用户问句进行语义相似度计算。在匹配时,用户问句与问题语义模板进行语义相似度计算,以确定问答数据库中的标准问及对应的标准答案。
因此,问答数据库构建模块530可基于文档集合中各文档的内容来反向建立对应的问题语义模板。这里的问题语义模板的建立可以有人工的参与,例如,问答数据库构建模块530可响应于人工对文档内容的分析建立对应的问题语义模板。或者,问题语义模板的建立也可以没有人工的参与,例如问答数据库构建模块530可基于文本分析技术分析文档的内容,并建立对应的问题语义模板。
语义表达式主要由词、词类以及他们的“或”关系构成,其核心依赖于“词类”,词类简单的理解,即为一组有共性的词,这些词在语义上可以相似也可以不相似,这些词也可以被标注为重要或不重要。语义表达式与用户问句关系与传统的模板匹配有了很大的不同,在传统模板匹配中,模板和用户问句只是匹配与未匹配的关系,而语义表达式与用户问句之间关系是通过量化的值(语义相似度)来表示,同时这个量化的值与相似问句和用户问句之间的语义相似度是可以互相比较的。由于语义表达式要和相似问句一起参与语义相似度计算,所以模板语法的定义不宜复杂,但又要有足够的能力表达语义。
标准问对应的扩展问除了包括用来表示标准问的知识点语义的语义表达式,还可以包括自然语句集合。
问答数据库的构建是智能问答技术领域所熟知的,不再赘述。
通信模块510可经由数据接口从平台服务器接收该微信公众号的用户输入的数据,例如用户问题。
检索单元520可基于该用户问句从问答数据库中检索对应的答案。这里的检索单元520可以是图2中匹配模块220的实例。
具体地,检索单元520可包括语义相似度计算子单元521和问句答案确定子单元522。语义相似度计算子单元521将用户问句与问答数据库中的问题语义模板执行语义相似度计算。该用户问句与问答数据库中的每个问题语义模板有一个语义相似度。问句答案确定子单元522将与该用户问句具有最高语义相似度的问题语义模板所对应的答案作为用户问句的答案。如前所述,这里的答案是一些文档,即将相关联的文档推送给用户。
通过构建问答数据库的方式,能够让用户以更直观的方式与微信公众号互动。简言之,用户能够直接输入自己想问的问题,而无需自己提炼关键词,进一步提高了微信公众号对用户的实用性。
本发明还提供了一种信息处理系统,包括上述的信息处理装置和微信公众平台。
图6是示出了根据本发明的一方面的用于微信公众平台的信息处理方法的流程图。如图6所示,信息处理方法600可包括以下步骤:
步骤601:接入微信公众平台的平台服务器的数据接口。
微信公众平台提供了一个数据接口给第三方的应用开发商。利用该数据接口可以获取微信公众平台的平台服务器中的一些数据。
步骤602:经由该数据接口从平台服务器接收与预定微信公众号相关联的文档集合。
在需要为某个微信公众号的功能进行增补时,可获得该微信公众号所有者的授权。获得授权后,可以经由数据接口接收与预定微信公众号相关联的文档集合。
步骤603:经由该数据接口从平台服务器接收该预定微信公众号的用户输入的数据。
用户在使用微信时,与微信公众号互动的数据被发送至平台服务器,经由该数据接口被接收。
在一实施例中,对文档集合执行索引化分析以获得文档集合的索引化形式的文档数据结构。
在另一实施例中,首先对文档集合执行分类处理以获得多个不同类别的文档子集,每个文档子集中的每篇文档具有相关联的分类标签以指示该篇文档所属的类别。例如可对文档集合中的每篇文档执行文本分类,然后将属于同一分类类别的文档划分为一个文档子集。具体地,可采用SVM分类器或贝叶斯分类器对每篇文档执行文本分类。
然后,对每个文档子集执行索引化分析以获得该文档子集的索引化形式的文档数据结构。
在再一实施例中,可基于文档集合构建问答数据库,问答数据库中包括问题语义模板和问题语义模板对应的答案,每个问题语义模板对应的答案为所述文档集合中的文档,每个所述文档对应至少一个问题语义模板。
步骤604:基于用户输入的数据从与该预定微信公众号相关联的文档集合中匹配关联文档。
该关联文档是与用户输入的数据相关的文档。在用户输入的数据是关键词的实例中,该关联文档可以是与关键词相关的文章内容。在用户输入的数据是问题的实例中,该关联文档可以是含有该问题的答案的文章内容。
在一实施例中,用户输入的数据包括用户搜索的关键词,可基于关键词从与该预定微信公众号相关联的索引化形式的文档数据结构检索关联文档。
在另一实施例中,文档集合中的文档被进行了分类,此时可首先基于关键词确定该关键词所属的类别,然后基于该关键词从关键词所属的类别的文档子集的索引化形式的文档数据结构查找关联文档。
具体地,在确定类别时,可将关键词与所有分类标签执行语义相似度计算,具有最高语义相似度的分类标签指示该关键词的类别。
作为示例,该索引化形式的文档数据结构可以为倒排索引,可基于该关键词通过该关键词所属的类别的文档子集的倒排索引来查找关联文档。
在再一实施例中,用户输入的数据包括用户提出的用户问题。此时可基于该用户问句从问答数据库中检索对应的答案。具体而言,可将用户问句与问答数据库中的问题语义模板执行语义相似度计算,将与该用户问句具有最高语义相似度的问题语义模板所对应的答案作为用户问句的答案。
所述问答数据库包括知识点,所述知识点包括标准问、扩展问和标准答案,所述标准答案为所述文档集合中的文档,所述扩展问包括与所述标准答案中的文档对应的至少一个问题语义模板。
标准问对应的扩展问包括用来表示标准问的知识点语义的语义表达式,还可以包括自然语句集合。语义表达式主要由词、词类以及他们的“或”关系构成,其核心依赖于“词类”,词类简单的理解,即为一组有共性的词,这些词在语义上可以相似也可以不相似,这些词也可以被标注为重要或不重要。语义表达式与用户问句关系与传统的模板匹配有了很大的不同,在传统模板匹配中,模板和用户问句只是匹配与未匹配的关系,而语义表达式与用户问句之间关系是通过量化的值(语义相似度)来表示,同时这个量化的值与相似问句和用户问句之间的语义相似度是可以互相比较的。由于语义表达式要和相似问句一起参与语义相似度计算,所以模板语法的定义不宜复杂,但又要有足够的能力表达语义。
上述匹配到的关联文档可经由数据接口被返回给用户。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
根据本发明的方案,增强了用户与微信公众号的互动。用户订阅公众号即为获得信息。通过与微信公众号的增强的互动,用户可以主动地在微信公众号中检索感兴趣的内容,甚至可以直接提出问题,从微信公众号的文档集合中获得答案。这大大提高了微信公众号的实用性。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (21)

1.一种用于微信公众平台的信息处理方法,所述微信公众平台包括平台服务器,所述平台服务器中包括与各微信公众号相关联的文档,其特征在于,所述信息处理方法包括:
接入所述平台服务器的数据接口;
经由所述数据接口从所述平台服务器接收与预定微信公众号相关联的文档集合;
经由所述数据接口从所述平台服务器接收所述预定微信公众号的用户输入的数据;以及
基于所述用户输入的数据从与所述预定微信公众号相关联的文档集合中匹配关联文档;
基于所述文档集合构建问答数据库,所述问答数据库中包括问题语义模板和问题语义模板对应的答案,每个问题语义模板对应的答案为所述文档集合中的文档,每个所述文档对应至少一个问题语义模板;
其中,用户输入的所述数据包括用户提出的用户问题,所述匹配关联文档的步骤包括:
基于所述用户问句从所述问答数据库中检索对应的答案。
2.如权利要求1所述的信息处理方法,其特征在于,还包括:
对所述文档集合执行索引化分析以获得所述文档集合的索引化形式的文档数据结构;
其中,用户输入的所述数据包括用户搜索的关键词,所述匹配关联文档的步骤包括:
基于所述关键词从与所述预定微信公众号相关联的索引化形式的文档数据结构检索关联文档。
3.如权利要求2所述的信息处理方法,其特征在于,还包括:
对所述文档集合执行分类处理以获得多个不同类别的文档子集,每个文档子集中的每篇文档具有相关联的分类标签以指示该篇文档所属的类别,
其中所述对所述文档集合执行索引化分析包括:
对每个文档子集执行索引化分析以获得该文档子集的索引化形式的文档数据结构,
其中,所述检索关联文档包括:
基于所述关键词确定所述关键词所属的类别;以及
基于所述关键词从所述关键词所属的类别的文档子集的索引化形式的文档数据结构查找所述关联文档。
4.如权利要求3所述的信息处理方法,其特征在于,所述对所述文档集合执行分类处理以获得多个不同类别的文档子集包括:
对所述文档集合中的每篇文档执行文本分类;以及
将属于同一分类类别的文档划分为一个文档子集。
5.如权利要求4所述的信息处理方法,其特征在于,所述对所述文档集合中的每篇文档执行文本分类包括:
采用SVM分类器或贝叶斯分类器对每篇文档执行文本分类。
6.如权利要求3所述的信息处理方法,其特征在于,所述确定所述关键词所属的类别包括:
将所述关键词与所有分类标签执行语义相似度计算,具有最高语义相似度的分类标签指示所述关键词的类别。
7.如权利要求3所述的信息处理方法,其特征在于,所述索引化形式的文档数据结构为倒排索引,所述从所述关键词所属的类别的文档子集的索引化形式的文档数据结构查找所述关联文档包括:
基于所述关键词通过所述关键词所属的类别的文档子集的倒排索引来查找所述关联文档。
8.如权利要求1所述的信息处理方法,其特征在于,所述问题语义模板为语义表达式;
所述基于所述用户问句从所述问答数据库中检索对应的答案包括:
将所述用户问句与所述问答数据库中的问题语义模板执行语义相似度计算;以及
将与所述用户问句具有最高语义相似度的问题语义模板所对应的答案作为所述用户问句的答案。
9.如权利要求8所述的信息处理方法,其特征在于,所述问答数据库包括知识点,所述知识点包括标准问、扩展问和标准答案,所述标准答案为所述文档集合中的文档,所述扩展问包括与所述标准答案中的文档对应的至少一个问题语义模板。
10.如权利要求1-9中任意一项所述的信息处理方法,其特征在于,所述匹配关联文档之后,还包括:将所述关联文档的相关信息经由所述数据接口输出给用户。
11.一种用于微信公众平台的信息处理装置,所述微信公众平台包括平台服务器,所述平台服务器中包括与各微信公众号相关联的文档,其特征在于,所述信息处理装置包括:
通信模块,所述通信模块接入所述平台服务器的数据接口,经由所述数据接口从所述平台服务器接收与预定微信公众号相关联的文档集合以及所述预定微信公众号的用户输入的数据;以及
匹配模块,用于基于所述用户输入的数据从与所述预定微信公众号相关联的文档集合中匹配关联文档;
问答数据库构建模块,用于基于所述文档集合构建问答数据库,所述问答数据库中包括问题语义模板和问题语义模板对应的答案,每个问题语义模板对应的答案为所述文档集合中的文档,每个所述文档对应至少一个问题语义模板,
其中,用户输入的所述数据包括用户提出的用户问题,所述匹配模块包括:
检索单元,用于基于所述用户问句从所述问答数据库中检索对应的答案。
12.如权利要求11所述的信息处理装置,其特征在于,还包括:
索引化模块,用于对所述文档集合执行索引化分析以获得所述文档集合的索引化形式的文档数据结构;
其中,用户输入的所述数据包括用户搜索的关键词,所述匹配模块包括:
检索单元,用于基于所述关键词从与所述预定微信公众号相关联的索引化形式的文档数据结构检索关联文档。
13.如权利要求12所述的信息处理装置,其特征在于,还包括:
分类模块,用于对所述文档集合执行分类处理以获得多个不同类别的文档子集,每个文档子集中的每篇文档具有相关联的分类标签以指示该篇文档所属的类别,
其中所述索引化模块对每个文档子集执行索引化分析以获得该文档子集的索引化形式的文档数据结构,
其中,所述检索单元包括:
类别确定子单元,用于基于所述关键词确定所述关键词所属的类别;以及
查找子单元,用于基于所述关键词从所述关键词所属的类别的文档子集的索引化形式的文档数据结构查找所述关联文档。
14.如权利要求13所述的信息处理装置,其特征在于,所述分类模块包括:
文本分类单元,用于对所述文档集合中的每篇文档执行文本分类;以及
分组单元,用于将属于同一分类类别的文档划分为一个文档子集。
15.如权利要求14所述的信息处理装置,其特征在于,所述文本分类单元采用SVM分类器或贝叶斯分类器对每篇文档执行文本分类。
16.如权利要求13所述的信息处理装置,其特征在于,所述类别确定单元将所述关键词与所有分类标签执行语义相似度计算,具有最高语义相似度的分类标签指示所述关键词的类别。
17.如权利要求13所述的信息处理装置,其特征在于,所述索引化形式的文档数据结构为倒排索引,所述查找子单元,用于基于所述关键词通过所述关键词所属的类别的文档子集的倒排索引来查找所述关联文档。
18.如权利要求11所述的信息处理装置,其特征在于,所述问题语义模板为语义表达式,所述检索单元包括:
语义相似度计算子单元,用于将所述用户问句与所述问答数据库中的问题语义模板执行语义相似度计算;
问句答案确定子单元,用于将与所述用户问句具有最高语义相似度的问题语义模板所对应的答案作为所述用户问句的答案。
19.如权利要求18所述的信息处理装置,其特征在于,所述问答数据库包括知识点,所述知识点包括标准问、扩展问和标准答案,所述标准答案为所述文档集合中的文档,所述扩展问包括与所述标准答案中的文档对应的至少一个问题语义模板。
20.如权利要求11-19中任意一项所述的信息处理装置,其特征在于,所述通信模块,还用于将所述关联文档的相关信息经由所述数据接口输出给用户。
21.一种信息处理系统,其特征在于,包括微信公众平台和如权利要求11-20中任意一项所述的信息处理装置,所述微信公众平台包括平台服务器,所述平台服务器中包括与各微信公众号相关联的文档。
CN201611099698.2A 2016-12-02 2016-12-02 用于微信公众平台的信息处理方法、装置、及系统 Active CN106789559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611099698.2A CN106789559B (zh) 2016-12-02 2016-12-02 用于微信公众平台的信息处理方法、装置、及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611099698.2A CN106789559B (zh) 2016-12-02 2016-12-02 用于微信公众平台的信息处理方法、装置、及系统

Publications (2)

Publication Number Publication Date
CN106789559A CN106789559A (zh) 2017-05-31
CN106789559B true CN106789559B (zh) 2019-09-24

Family

ID=58883151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611099698.2A Active CN106789559B (zh) 2016-12-02 2016-12-02 用于微信公众平台的信息处理方法、装置、及系统

Country Status (1)

Country Link
CN (1) CN106789559B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885712A (zh) * 2017-11-20 2018-04-06 浪潮金融信息技术有限公司 对接文档生成方法及装置、计算机存储介质和终端
CN108038221B (zh) * 2017-12-22 2021-10-15 新奥(中国)燃气投资有限公司 一种信息抓取方法及装置
CN108491434A (zh) * 2018-02-09 2018-09-04 深圳前海道己社文化有限公司 基于微信公众号的文章展示方法、装置和终端
CN108763252B (zh) * 2018-04-02 2020-11-10 携程旅游信息技术(上海)有限公司 公众号的信息推送方法及其系统、存储介质、电子设备
CN109614476A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 客服系统问答方法、装置、计算机设备及存储介质
CN110110064A (zh) * 2019-05-06 2019-08-09 武汉微麦互联网络科技有限公司 一种基于微信公众服务平台的用户管理方法
CN110263262A (zh) * 2019-06-25 2019-09-20 苏州梦嘉信息技术有限公司 用于微信公众平台的信息搜索方法及系统、装置
CN110580342A (zh) * 2019-09-19 2019-12-17 苏州思必驰信息科技有限公司 公众号问答响应方法及装置
CN112733003A (zh) * 2020-12-29 2021-04-30 重庆旅游云信息科技有限公司 标识重庆系统
CN112989248A (zh) * 2021-02-08 2021-06-18 山东省农业科学院科技信息研究所 基于微信的节目信息管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN102004862A (zh) * 2010-12-14 2011-04-06 王兴强 一种使患者获得就医知情权的临床方法及系统
CN103780967A (zh) * 2014-01-28 2014-05-07 中国共产党广州市天河区委员会组织部 一种信息展示系统及展示方法
CN105320740A (zh) * 2015-09-22 2016-02-10 清华大学 微信文章以及公众号的获取方法及获取系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN102004862A (zh) * 2010-12-14 2011-04-06 王兴强 一种使患者获得就医知情权的临床方法及系统
CN103780967A (zh) * 2014-01-28 2014-05-07 中国共产党广州市天河区委员会组织部 一种信息展示系统及展示方法
CN105320740A (zh) * 2015-09-22 2016-02-10 清华大学 微信文章以及公众号的获取方法及获取系统

Also Published As

Publication number Publication date
CN106789559A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106789559B (zh) 用于微信公众平台的信息处理方法、装置、及系统
KR101858206B1 (ko) 지능형 챗봇 기반 대화형 현장 지원 서비스 제공 방법
CN110235154B (zh) 使用特征关键词将会议与项目进行关联
US11790933B2 (en) Systems and methods for manipulating electronic content based on speech recognition
Kofler et al. User intent in multimedia search: a survey of the state of the art and future challenges
Fang et al. Detecting hot topics from Twitter: A multiview approach
US20100211551A1 (en) Method, system, and computer readable recording medium for filtering obscene contents
Cheng et al. On effective personalized music retrieval by exploring online user behaviors
CN107729336A (zh) 数据处理方法、设备及系统
US9720979B2 (en) Method and system of identifying relevant content snippets that include additional information
US20140040710A1 (en) System for setting fees for iterative parsing, matching, and correlation of sets of text strings drawn from real time crowd-sourced streamed data and using said matches to initiate APIs or trigger alerts to participants in a crowd sourced pervasive computing environment.
US20150310028A1 (en) Automatic media naming using facial recognization and/or voice based identification of people within the named media content
WO2020077825A1 (zh) 论坛社区应用管理方法、装置、设备及可读存储介质
CN103226601B (zh) 一种图片搜索的方法和装置
CN110245357A (zh) 主实体识别方法和装置
JP4651975B2 (ja) 情報検索システム、情報検索装置、情報検索支援装置および情報検索プログラムおよび情報検索支援プログラム
CN115544297A (zh) 一种声音数据库构建及智能检索方法、系统及存储介质
CN109408713B (zh) 一种基于用户反馈信息的软件需求检索系统
Li et al. Research on hot news discovery model based on user interest and topic discovery
CN116569164A (zh) 在内容管理系统中对内容进行智能归类的系统和方法
US20160335325A1 (en) Methods and systems of knowledge retrieval from online conversations and for finding relevant content for online conversations
Liao et al. Crowd knowledge enhanced multimodal conversational assistant in travel domain
NL2024793B1 (en) Contextual search in collaborative communications applications
Che et al. A feature and deep learning model recommendation system for mobile application
Wang et al. GSR: A Resource Model and Semantics-based API Recommendation Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant