CN105912575A - 文字信息推送方法和装置 - Google Patents
文字信息推送方法和装置 Download PDFInfo
- Publication number
- CN105912575A CN105912575A CN201610197000.4A CN201610197000A CN105912575A CN 105912575 A CN105912575 A CN 105912575A CN 201610197000 A CN201610197000 A CN 201610197000A CN 105912575 A CN105912575 A CN 105912575A
- Authority
- CN
- China
- Prior art keywords
- word
- evaluator
- word message
- semantic
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了文字信息推送方法和装置。所述方法的一具体实施方式包括:获取用户通过终端输入的文字信息;对所述文字信息进行语义分析,生成关键词集合;基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合;推送所述匹配信息集合。该实施方式实现了对用户反馈信息的富于针对性的文字信息推送。
Description
技术领域
本申请涉及计算机技术领域,具体涉及智能信息处理技术领域,尤其涉及文字信息推送方法和装置。
背景技术
随着专车、快车、顺风车等各类革命性出行产品的从无到有和快速发展,人们的出行方式有了更多选择,出行习惯也慢慢发生变化,整个社会的出行效率大幅提高。但是新产品的诞生总是一个不断探索未知的过程,用车类产品亦是如此。无论是产品形态、功能体验还是服务能力都有待进一步完善。
在用车产品不断完善的过程中,真实用户的应用反馈具有非常重要的参考价值。只有不断倾听、汇总、分析用户的真实使用体验,有的放矢的改进产品才能让产品越来越为用户所接受。不过用户的真实体验总是以不同的形态散落各处,如微博、微信、产品评论、客服记录、即时消息、主题论坛、贴吧等等,且体验的对象不仅包括产品本身,还包括对司机或乘客的评价。如何及时准确的获取用户的真实体验反馈,并从海量的反馈数据中挖掘问题点和改进方向成为了一个难题。
一个典型的用例是百度地图接入的uber专车,用户在使用uber专车服务时,遇到问题会向客服进行投诉,客服在协助其解决问题的同时,也会将用户的问题如实记录下来,留给负责该产品设计和研发的相关同学去解决,但用户所描述的问题各式各样,场景也是错综复杂,仅仅靠人工去整理的话非常费时且带有强烈的主观性。
发明内容
本申请的目的在于提出一种改进的文字信息推送方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种文字信息推送方法,所述方法包括:获取用户通过终端输入的文字信息;对所述文字信息进行语义分析,生成关键词集合;基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合;推送所述匹配信息集合。
在一些实施例中,所述文字信息包括以下至少一项:客服记录、产品评论、即时消息、网上社区、自媒体和微博。
在一些实施例中,所述对所述文字信息进行语义分析,生成关键词集合,包括:对所述文字信息进行语义片段切分,生成语义片段集合;确定所述语义片段集合的中心词,生成关键词集合。
在一些实施例中,所述对所述文字信息进行语义片段切分,生成语义片段集合;确定所述语义片段集合的中心词,生成关键词集合,包括:基于先验模式判断所述语义片段集合是否为完整语义单元,对不属于完整语义单元的语义片段集合进行上下文消歧处理,生成完整语义片段集合;确定所述完整语义片段集合的中心词,生成关键词集合。
在一些实施例中,所述对所述文字信息进行语义片段切分,生成语义片段集合;确定所述语义片段集合的中心词,生成关键词集合,包括:对所述文字信息进行语义成分和/或语句间语义依存关系分析,生成所述语义片段集合;确定所述语义片段集合的文字信息属性;基于所述文字信息属性,根据依存句法分析,确定所述文字信息依存句法属性;对确定所述依存句法属性后的所述文字信息在预设信息库进行匹配,确定所述语义片段集合的中心词,生成关键词集合。
在一些实施例中,还包括基于所述关键词集合更新所述预设信息库。
在一些实施例中,所述基于所述关键词集合更新所述预设信息库,包括:对所述关键词集合进行同义词扩展,生成核心词集合;基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合;基于所述识别器集合生成候选更新库;基于所述候选更新库更新所述预设信息库。
在一些实施例中,所述基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合,包括:基于先验模式判断所述核心词集合是否为完整语义单元,对不属于完整语义单元的核心词集合进行上下文消歧处理,生成完整核心词集合;基于所述完整核心词集合构建识别器集合,所述识别器集合包括前置词集合、完整核心词集合和后置词集合。
在一些实施例中,所述基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合,包括:基于所述核心词集合正向构建识别器集合和反向构建识别器集合;所述正向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词落入识别器集合中;所述反向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词不落入识别器集合中。
第二方面,本申请提供了一种文字信息推送装置,所述装置包括:接收模块,配置用于获取用户通过终端输入的文字信息;分析模块,配置用于对所述文字信息进行语义分析,生成关键词集合;匹配模块,配置用于基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合;推送模块,配置用于推送所述匹配信息集合。
在一些实施例中,所述文字信息包括以下至少一项:客服记录、产品评论、即时消息、网上社区、自媒体和微博。
在一些实施例中,所述分析模块进一步配置用于对所述文字信息进行语义片段切分,生成语义片段集合;确定所述语义片段集合的中心词,生成关键词集合。
在一些实施例中,所述分析模块进一步配置用于基于先验模式判断所述语义片段集合是否为完整语义单元,对不属于完整语义单元的语义片段集合进行上下文消歧处理,生成完整语义片段集合;确定所述完整语义片段集合的中心词,生成关键词集合。
在一些实施例中,所述分析模块进一步配置用于对所述文字信息进行语义成分和/或语句间语义依存关系分析,生成所述语义片段集合;确定所述语义片段集合的文字信息属性;基于所述文字信息属性,根据依存句法分析,确定所述文字信息依存句法属性;对确定所述依存句法属性后的所述文字信息在预设信息库进行匹配,确定所述语义片段集合的中心词,生成关键词集合。
在一些实施例中,还包括更新模块,所述更新模块配置用于基于所述关键词集合更新所述预设信息库。
在一些实施例中,所述更新模块进一步配置用于对所述关键词集合进行同义词扩展,生成核心词集合;基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合;基于所述识别器集合生成候选更新库;基于所述候选更新库更新所述预设信息库。
在一些实施例中,所述更新模块进一步配置用于基于先验模式判断所述核心词集合是否为完整语义单元,对不属于完整语义单元的核心词集合进行上下文消歧处理,生成完整核心词集合;基于所述完整核心词集合构建识别器集合,所述识别器集合包括前置词集合、完整核心词集合和后置词集合。
在一些实施例中,所述更新模块进一步配置用于基于所述核心词集合正向构建识别器集合和反向构建识别器集合;所述正向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词落入识别器集合中;所述反向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词不落入识别器集合中。
本申请提供的文字信息推送方法和装置,通过对用户通过终端输入的文字信息;而后对所述文字信息进行语义分析,生成关键词集合;基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合;推送所述匹配信息集合,能够快速分析用户反馈,为改善产品和提升服务能力提供可靠的指导方向,同时,也可以作为了解核心用户兴趣点的重要手段,通过分析某个具体用户的在各个渠道的一系列反馈,判断该用户的行为特点,为进行个性化运营提供精准画像。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的文字信息推送方法的一个实施例的流程图;
图3是根据本申请的文字信息推送方法的又一个实施例的流程图;
图4是根据本申请的文字信息推送装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的文字信息推送方法或文字推送信息装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持社交交互的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的网页或应用提供支持的后台网页服务器或应用服务器。后台网页服务器或应用服务器可以对接收到的文字信息等数据进行分析等处理,并将处理结果(例如文字信息关键字集合)反馈给终端设备。
需要说明的是,本申请实施例所提供的文字信息推送方法一般由服务器105执行,相应地,文字信息推送装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的文字信息推送方法的一个实施例的流程200。所述的文字信息推送方法,包括以下步骤:
步骤201,获取用户通过终端输入的文字信息。
在本实施例中,文字信息推送方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收用户利用终端设备(例如图1所示的101、102或103)输入的文字信息,其中文字信息获取方式包括但不限于以下几种:
电子设备通过安装于终端设备上的社交平台软件(比如微博客户端、微信客户端、贴吧客户端等)获取用户使用相关产品服务(比如uber专车)后的文字反馈信息(包括即时消息),来自相关主题论坛的用户反馈信息,相应产品客服记录用户的反馈信息,产品应用软件平台下的产品评价信息。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202,对所述文字信息进行语义分析,生成关键词集合。
在本实施例中,基于步骤201得到的文字信息,上述电子设备(例如图1所示的服务器)对该文字信息进行语义分析,生成关键词集合。
在本实施例的一些可选的实现方式中,对上述文字信息进行语义片段切分,生成相应的语义片段集合,确定所述语义片段集合的中心词,生成关键词集合。
例如,在用户的一条反馈文字信息中,可能不止包含产品的某一方面,尤其是在产品评论或社区论坛中,有些用户会对整个产品的各个功能模块进行评价,既有正面肯定的部分,也有负面吐槽的部分,比如,某品牌手机应用商店里针对某品牌用车APP产品评价如下:
“非常好用,但是产品改版升级太快,很多初期体验很好的功能在产品升级后都取消了,估计是考虑到减少后台管理的麻烦,不过也不能因此降低了产品体验呀,比如捎句话就从原来选择标准语言同时也能自定义内容变成了只能选择标准语言,这个不够好啊”。
在这条评论中,就包括了以下几个语义片段集合:整体评价(潜在)、产品改版升级、后台管理、产品体验、捎句话。进一步的可以确定上述语义片段集合的中心语,生成关键词集合。
在本实施例的一些可选的实现方式中,可以对所述文字信息进行语义成分和/或语句间语义依存关系分析,生成所述语义片段集合;之后再确定所述语义片段集合的文字信息属性;基于所述文字信息属性,根据依存句法分析,确定所述文字信息依存句法属性;确定所述语义片段集合的中心词,生成关键词集合。关于语义片段切分,这种可选的实施方式中,传统的做法是通过识别句子中的词性成分是否完整,如果完整就识别为一句话,不完整的话继续向前后扩展,但是这种方法对于简单评论还可以,对于复杂评论语句效果急剧变差,一个复杂观点可能需要前后几句话才能说清楚,这其中可能有些语句满足词性成分完整条件,但组合在一起才是完整的语义片段。只有基于这样完整的语义片段,才能获取用户想要反馈的真实观点。本申请实施例借助于对语句内各语义成分和语句间语义依存关系的识别,判断两个句子之间是关联关系还是并列关系,从而摘取一个完整语义片段,如下例所示:
“比如捎句话,从原来选择标准语言或自定义变成了只能选择标准语言”。
在这个片段中,前一句和后一句关系被识别为原因关系,因此这两句话同属一个语义单元。
再如下例所示:
“非常好用,但是产品改版升级太快”。
在这句话中,“非常好用”和“但是产品改版升级太快”这两句话被识别为并列关系,因此不属于同一个语义单元。
通过上述的语义依存分析,可以很好的截取完整的语义片段,而本部分所抽取的语义单元,在后续的模块中,是作为一个独立的单元存在的,不可再细分,且在所输出的语义单元中,除了语句本身之外,还包括其浅层句法标注、依存句法标注和语义标注。
每个独立的语义片段,都描述了用户在某一个特定方面的观点诉求。准确的把握语义片段的“槽点”,消除理解歧义非常重要。比如:“手机卡的要命”的槽点是“手机”而不是“手机卡”,“手机卡信号不好”的槽点是“手机卡”而不是“手机”。具体的,在本申请中,采用浅层句法标识和依存句法标识相结合的方式识别核心问题的主干。
首先,抽取语句中名词成分和形容词成分;
进而,判断其在语义片段中的依存句法属性,以及与预设信息库(下述步骤203所提及的预设信息库)的关系,包括下述几种:
包含、相似或相关,当满足预设的条件时,将其标注为语义片段的中心语。
在本实施例的一些可选的实现方式中,鉴于并不是所有语义片段集合都有完整的句法结构,很多用户在表达其对产品的看法时,经常会使用一些缺省的表达方式,比如独立语义片段“很流畅”、“很友善”等等,可以基于先验模式判断所述语义片段集合是否为完整语义单元,对不属于完整语义单元的语义片段集合进行上下文消歧处理,生成完整语义片段集合。具体可以通过先验模式推测出用户描述的对象,进而补全语句,但还有一些存在歧义,仅从语义单元本身无法判断其描述对象,这就需要结合上下文来综合分析,消除歧义,具体方法可以是基于先验模式匹配描述对象,并计算其描述对象的条件概率,若匹配不止一个描述对象且条件概率分布不具有明显极性,则引入该语义单元的上下文进行消歧。比如:当用户评论的独立语义单元为“很友善”时,极有可能指的是产品设计,也有可能是指车主或乘客,这时,基于先验模式就会得出多种候选描述对象,但假如上下文中提到的更多是产品方面的内容,则本单元缺省的中心语更可能是产品设计,反之亦然。
步骤203,基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合。
基于步骤202得到的关键词集合,在预设信息库中进行匹配,在本实施例中,文字信息推送方法运行于其上的电子设备上的预设信息库可以预先存储多条候选文字信息集合,这些候选文字信息集合可以用于与上述关键词集合相匹配,在本实施例中,上述电子设备可以将上述关键词集合与各条候选文字信息集合的内容分别进行逐一匹配,并根据每条候选文字信息的内容所包括的关键词的数目来确定该条候选文字信息与关键词集合的匹配关系。例如,如果某条候选文字信息的内容中包括了上述关键词集合中的所有关键词,则可以确定该条候选文字信息与关键词集合存在完全匹配关系;而如果某条候选文字信息的内容中包括了上述关键词集合中的部分关键词,则可以确定该条候选文字信息与关键词集合存在部分匹配关系;而如果某条候选文字信息的内容中不包括上述关键词集合中的任何关键词,则可以确定该条候选文字信息与关键词集合存在不匹配关系。根据匹配关系,上述电子设备可以从多条候选文字信息中选取至少一条候选匹配信息,并由此生成匹配信息集合。例如,上述电子设备可以选取与关键词集合符合完全匹配关系的候选匹配信息集合。
步骤204,推送所述匹配信息集合。
基于步骤203得到的匹配信息集合,该文字信息推送方法运行于其上的电子设备(如图1所示的服务器),将该匹配信息集合推送至设备终端,包括但不限于让产品调研者或者软件开发者能够更好地了解用户需求,得到良好的反馈信息,对产品或服务进行升级改造。
继续参考图3,示出了根据本申请的文字信息推送方法的另一个实施例的流程300。所述的文字信息推送方法,包括以下步骤:
步骤301,获取用户通过终端输入的文字信息。
步骤302,对所述文字信息进行语义分析,生成关键词集合。
步骤303,基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合。
其中步骤301-步骤303具体内容与第一个实施例中的步骤201-步骤203相同,在此不再赘述。
步骤304,基于所述关键词集合更新所述预设信息库。
在现有的语义分析方法中,往往由相应领域技术人员根据其对本领域的了解,人工创建出完备的本领域概念体系,从而形成预设信息库,这种方法构建的预设信息库,虽然结构严谨,但是耗时耗力,且不具有可扩展性,随着领域内新事物的出现(比如用户反馈的新的文字信息),预设信息库并没有该相应的文字匹配信息,也就无法生成相应的匹配信息集合,误导产品或服务相关决策者,本步骤基于所述的关键词集合能够实时更新预设信息库,对预设信息库能够实时扩充。
在本实施例的一些可选的实现方式中,可以对所述关键词集合进行同义词扩展,生成核心词集合;基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合;基于所述识别器集合生成候选更新库;基于所述候选更新库更新所述预设信息库。
更为具体地是,基于步骤302中所述关键词集合中有关中心词识别方法形成的核心词集合,当该核心词集合无法在预设信息库中匹配时,利用Word2vec等方法得出该核心词集合的语义向量,获取其在预设信息库中的位置以及与其他概念间关系,构建识别器集合,进而将其纳入预设信息库,实现预设信息库的自动创建和实时更新。
在本实施例的一些可选的实现方式中,在构建识别器集合时,先基于先验模式判断所述核心词集合是否为完整语义单元,对不属于完整语义单元的核心词集合进行上下文消歧处理,生成完整核心词集合;基于所述完整核心词集合构建识别器集合,所述识别器集合包括前置词集合、完整核心词集合和后置词集合。
更为具体地,基于用户对本领域概念(例如用车领域)的表达习惯,搭配常用的主观或客观用语,比如,在描述“叫车”功能时,人们经常会用“不知道怎么叫车”(客观)、“叫车太麻烦了”(主观)等方式表达,因此需要将类似“不知道”的短语前置,将类似“麻烦”的短语后置,从而形成完备的关于“叫车”功能的识别器集合,其基本格式如下:
(前置词集合).*(核心词集合).*(后置词集合)->对应概念。
在本实施例的一些可选的实现方式中,基于所述核心词集合正向构建识别器集合和反向构建识别器集合;所述正向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词落入识别器集合中;所述反向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词不落入识别器集合中。
更为具体地,对于反向构建识别器集合,当用户本领域(比如用车领域)反馈的文字信息特别复杂时,进行语义片段切分以及对该语义片段中心语识别,并且根据该中心语生成了核心词集合以后,部分核心词集合中的两个以上概念以及所构建识别器集合就非常容易产生歧义,导致错误构建,在此情况下,采用反向构建识别器,所谓反向识别器匹配,即在某个核心词的识别器集合中,一旦匹配上某个识别器,则该核心词不落入识别器集合中。
步骤305,推送所述匹配信息集合。
此处推送步骤与第一个实施例的步骤204相同,在此不作赘述。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种文字信息推送装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的文字信息推送装置400包括:接收模块401、分析模块402、匹配模块403和推送模块404。其中,接收模块401,配置用于获取用户通过终端输入的文字信息;分析模块402,配置用于对所述文字信息进行语义分析,生成关键词集合;匹配模块403,配置用于基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合;推送模块404,配置用于推送所述匹配信息集合。
在本实施例中,文字信息推送装置400的接收模块401可以通过有线连接方式或者无线连接方式接收用户利用终端设备(例如图1所示的101、102或103)输入的文字信息,其中文字信息获取方式与上述相同,在此不作赘述。
在本实施例中,文字信息推送装置400的分析模块402,对来自接收模块401的文字信息进行语义分析,生成关键词集合。
在本实施例中,分析模块402可以对上述文字信息进行语义片段切分,生成相应的语义片段集合,确定所述语义片段集合的中心词,生成关键词集合。
在本实施例中,分析模块402还可以进一步配置用于基于先验模式判断所述语义片段集合是否为完整语义单元,对不属于完整语义单元的语义片段集合进行上下文消歧处理,生成完整语义片段集合;确定所述完整语义片段集合的中心词,生成关键词集合。
在本实施例中,分析模块402进一步配置用于对所述文字信息进行语义成分和/或语句间语义依存关系分析,生成所述语义片段集合;确定所述语义片段集合的文字信息属性;基于所述文字信息属性,根据依存句法分析,确定所述文字信息依存句法属性;对确定所述依存句法属性后的所述文字信息在预设信息库进行匹配,确定所述语义片段集合的中心词,生成关键词集合。
在本实施例中,文字信息推送装置400上可以预先存储预设信息库,该装置可以对接收到的文字信息等数据进行分析等处理,与存储在预设信息库中的文字信息进行匹配,并将处理结果(例如文字信息关键字集合)反馈给用户使用的终端设备。
本领域技术人员可以理解,上述文字信息推送装置400还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图4中未示出。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接收模块、分析模块、匹配模块和推送模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,接收模块还可以被描述为“获取用户通过终端输入的文字信息模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的文字信息推送方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (18)
1.一种文字信息推送方法,其特征在于,所述方法包括:
获取用户通过终端输入的文字信息;
对所述文字信息进行语义分析,生成关键词集合;
基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合;
推送所述匹配信息集合。
2.根据权利要求1所述的文字信息推送方法,其特征在于,所述文字信息包括以下至少一项:
客服记录、产品评论、即时消息、网上社区、自媒体和微博。
3.根据权利要求1所述的文字信息推送方法,其特征在于,所述对所述文字信息进行语义分析,生成关键词集合,包括:
对所述文字信息进行语义片段切分,生成语义片段集合;
确定所述语义片段集合的中心词,生成关键词集合。
4.根据权利要求3所述的文字信息推送方法,其特征在于,所述对所述文字信息进行语义片段切分,生成语义片段集合;
确定所述语义片段集合的中心词,生成关键词集合,包括:
基于先验模式判断所述语义片段集合是否为完整语义单元,对不属于完整语义单元的语义片段集合进行上下文消歧处理,生成完整语义片段集合;
确定所述完整语义片段集合的中心词,生成关键词集合。
5.根据权利要求3所述的文字信息推送方法,其特征在于,所述对所述文字信息进行语义片段切分,生成语义片段集合;
确定所述语义片段集合的中心词,生成关键词集合,包括:
对所述文字信息进行语义成分和/或语句间语义依存关系分析,生成所述语义片段集合;
确定所述语义片段集合的文字信息属性;
基于所述文字信息属性,根据依存句法分析,确定所述文字信息依存句法属性;
对确定所述依存句法属性后的所述文字信息在预设信息库进行匹配,确定所述语义片段集合的中心词,生成关键词集合。
6.根据权利要求1-5之一所述的文字信息推送方法,其特征在于,还包括基于所述关键词集合更新所述预设信息库。
7.根据权利要求6所述的文字信息推送方法,其特征在于,所述基于所述关键词集合更新所述预设信息库,包括:
对所述关键词集合进行同义词扩展,生成核心词集合;
基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合;
基于所述识别器集合生成候选更新库;
基于所述候选更新库更新所述预设信息库。
8.根据权利要求7所述的文字信息推送方法,其特征在于,所述基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合,包括:
基于先验模式判断所述核心词集合是否为完整语义单元,对不属于完整语义单元的核心词集合进行上下文消歧处理,生成完整核心词集合;
基于所述完整核心词集合构建识别器集合,所述识别器集合包括前置词集合、完整核心词集合和后置词集合。
9.根据权利要求7所述的文字信息推送方法,其特征在于,所述基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合,包括:
基于所述核心词集合正向构建识别器集合和反向构建识别器集合;所述正向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词落入识别器集合中;所述反向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词不落入识别器集合中。
10.一种文字信息推送装置,其特征在于,所述装置包括:
接收模块,配置用于获取用户通过终端输入的文字信息;
分析模块,配置用于对所述文字信息进行语义分析,生成关键词集合;
匹配模块,配置用于基于所述关键词集合与预设信息库进行匹配,选取至少一条候选匹配信息,生成匹配信息集合;
推送模块,配置用于推送所述匹配信息集合。
11.根据权利要求10所述的文字信息推送装置,其特征在于,所述文字信息包括以下至少一项:
客服记录、产品评论、即时消息、网上社区、自媒体和微博。
12.根据权利要求10所述的文字信息推送装置,其特征在于,所述分析模块进一步配置用于对所述文字信息进行语义片段切分,生成语义片段集合;
确定所述语义片段集合的中心词,生成关键词集合。
13.根据权利要求12所述的文字信息推送装置,其特征在于,所述分析模块进一步配置用于基于先验模式判断所述语义片段集合是否为完整语义单元,对不属于完整语义单元的语义片段集合进行上下文消歧处理,生成完整语义片段集合;
确定所述完整语义片段集合的中心词,生成关键词集合。
14.根据权利要求12所述的文字信息推送装置,其特征在于,所述分析模块进一步配置用于对所述文字信息进行语义成分和/或语句间语义依存关系分析,生成所述语义片段集合;
确定所述语义片段集合的文字信息属性;
基于所述文字信息属性,根据依存句法分析,确定所述文字信息依存句法属性;
对确定所述依存句法属性后的所述文字信息在预设信息库进行匹配,确定所述语义片段集合的中心词,生成关键词集合。
15.根据权利要求10-14之一所述的文字信息推送装置,其特征在于,还包括更新模块,所述更新模块配置用于基于所述关键词集合更新所述预设信息库。
16.根据权利要求15所述的文字信息推送装置,其特征在于,所述更新模块进一步配置用于对所述关键词集合进行同义词扩展,生成核心词集合;
基于所述核心词集合构建识别器集合,所述识别器集合包括前置词集合、核心词集合和后置词集合;
基于所述识别器集合生成候选更新库;
基于所述候选更新库更新所述预设信息库。
17.根据权利要求16所述的文字信息推送装置,其特征在于,所述更新模块进一步配置用于基于先验模式判断所述核心词集合是否为完整语义单元,对不属于完整语义单元的核心词集合进行上下文消歧处理,生成完整核心词集合;
基于所述完整核心词集合构建识别器集合,所述识别器集合包括前置词集合、完整核心词集合和后置词集合。
18.根据权利要求16所述的文字信息推送装置,其特征在于,所述更新模块进一步配置用于基于所述核心词集合正向构建识别器集合和反向构建识别器集合;所述正向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词落入识别器集合中;所述反向构建识别器集合,当至少一个核心词与识别器匹配时,则该核心词不落入识别器集合中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610197000.4A CN105912575B (zh) | 2016-03-31 | 2016-03-31 | 文字信息推送方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610197000.4A CN105912575B (zh) | 2016-03-31 | 2016-03-31 | 文字信息推送方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105912575A true CN105912575A (zh) | 2016-08-31 |
CN105912575B CN105912575B (zh) | 2020-05-15 |
Family
ID=56744438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610197000.4A Active CN105912575B (zh) | 2016-03-31 | 2016-03-31 | 文字信息推送方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105912575B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107835439A (zh) * | 2017-10-25 | 2018-03-23 | 中国移动通信集团公司 | 一种弹幕推送方法、电子设备以及计算机可读存储介质 |
CN108345608A (zh) * | 2017-01-24 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置及设备 |
CN109033060A (zh) * | 2018-08-16 | 2018-12-18 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN110569494A (zh) * | 2018-06-05 | 2019-12-13 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN112818972A (zh) * | 2020-12-25 | 2021-05-18 | 北京百度网讯科技有限公司 | 兴趣点图像的检测方法、装置、电子设备及存储介质 |
CN114330251A (zh) * | 2022-03-04 | 2022-04-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本生成方法、模型的训练方法、设备及存储介质 |
CN118520881A (zh) * | 2024-07-23 | 2024-08-20 | 贵州中汇科技发展有限公司 | 法律文书关键信息提取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070074185A1 (en) * | 2005-08-30 | 2007-03-29 | Microsoft Corporation | Identifier expressions |
US20140163962A1 (en) * | 2012-12-10 | 2014-06-12 | International Business Machines Corporation | Deep analysis of natural language questions for question answering system |
CN104298658A (zh) * | 2014-10-29 | 2015-01-21 | 百度在线网络技术(北京)有限公司 | 获取搜索结果的方法和装置 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
CN104933031A (zh) * | 2015-06-29 | 2015-09-23 | 华东师范大学 | 一种基于语义网无监督的自动问答方法 |
CN104951456A (zh) * | 2014-03-26 | 2015-09-30 | 上海智臻网络科技有限公司 | 一种用于获得答案信息的方法、装置和设备 |
-
2016
- 2016-03-31 CN CN201610197000.4A patent/CN105912575B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070074185A1 (en) * | 2005-08-30 | 2007-03-29 | Microsoft Corporation | Identifier expressions |
US20140163962A1 (en) * | 2012-12-10 | 2014-06-12 | International Business Machines Corporation | Deep analysis of natural language questions for question answering system |
CN104951456A (zh) * | 2014-03-26 | 2015-09-30 | 上海智臻网络科技有限公司 | 一种用于获得答案信息的方法、装置和设备 |
CN104298658A (zh) * | 2014-10-29 | 2015-01-21 | 百度在线网络技术(北京)有限公司 | 获取搜索结果的方法和装置 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
CN104933031A (zh) * | 2015-06-29 | 2015-09-23 | 华东师范大学 | 一种基于语义网无监督的自动问答方法 |
Non-Patent Citations (3)
Title |
---|
XUECHENG NIE等: "MEASURING SEMANTIC SIMILARITY BY CONTEXTUALWORD CONNECTIONS IN CHINESE NEWS STORY SEGMENTATION", 《IEEE》 * |
伍大勇: "搜索引擎中命名实体查询处理相关技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
杨仁树等: "《煤矿巷道支护智能设计系统与工程应用》", 31 December 2015, 北京:冶金工业出版社 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345608A (zh) * | 2017-01-24 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置及设备 |
CN107835439A (zh) * | 2017-10-25 | 2018-03-23 | 中国移动通信集团公司 | 一种弹幕推送方法、电子设备以及计算机可读存储介质 |
CN107835439B (zh) * | 2017-10-25 | 2020-08-14 | 中国移动通信集团公司 | 一种弹幕推送方法、电子设备以及计算机可读存储介质 |
CN110569494A (zh) * | 2018-06-05 | 2019-12-13 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN109033060A (zh) * | 2018-08-16 | 2018-12-18 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN109033060B (zh) * | 2018-08-16 | 2023-01-17 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN112818972A (zh) * | 2020-12-25 | 2021-05-18 | 北京百度网讯科技有限公司 | 兴趣点图像的检测方法、装置、电子设备及存储介质 |
CN112818972B (zh) * | 2020-12-25 | 2024-03-22 | 北京百度网讯科技有限公司 | 兴趣点图像的检测方法、装置、电子设备及存储介质 |
CN114330251A (zh) * | 2022-03-04 | 2022-04-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本生成方法、模型的训练方法、设备及存储介质 |
CN114330251B (zh) * | 2022-03-04 | 2022-07-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本生成方法、模型的训练方法、设备及存储介质 |
CN118520881A (zh) * | 2024-07-23 | 2024-08-20 | 贵州中汇科技发展有限公司 | 法律文书关键信息提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105912575B (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105912575A (zh) | 文字信息推送方法和装置 | |
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107657056B (zh) | 基于人工智能展示评论信息的方法和装置 | |
CN105701088B (zh) | 从机器对话切换到人工对话的方法和装置 | |
CN107577763A (zh) | 检索方法和装置 | |
CN108984650B (zh) | 计算机可读记录介质及计算机设备 | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN102789449B (zh) | 对评论文本进行评价的方法和装置 | |
JP2017215931A (ja) | 会議支援システム、会議支援装置、会議支援方法及びプログラム | |
CN109670050B (zh) | 一种实体关系预测方法及装置 | |
CN104951428A (zh) | 用户意图识别方法及装置 | |
CN110187780B (zh) | 长文本预测方法、装置、设备和存储介质 | |
CN107305578A (zh) | 人机智能问答方法和装置 | |
CN107305575A (zh) | 人机智能问答系统的断句识别方法和装置 | |
CN108549723B (zh) | 一种文本概念分类方法、装置及服务器 | |
CN105929979B (zh) | 长句输入方法和装置 | |
CN109992766A (zh) | 提取目标词的方法和装置 | |
CN105096934A (zh) | 构建语音特征库的方法、语音合成方法、装置及设备 | |
CN107291775A (zh) | 错误样本的修复语料生成方法和装置 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
CN107862058A (zh) | 用于生成信息的方法和装置 | |
CN107291774A (zh) | 错误样本识别方法和装置 | |
CN106156262A (zh) | 一种搜索信息处理方法及系统 | |
CN111787042A (zh) | 用于推送信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |