CN110110078B - 数据处理方法和装置、用于数据处理的装置 - Google Patents
数据处理方法和装置、用于数据处理的装置 Download PDFInfo
- Publication number
- CN110110078B CN110110078B CN201810028160.5A CN201810028160A CN110110078B CN 110110078 B CN110110078 B CN 110110078B CN 201810028160 A CN201810028160 A CN 201810028160A CN 110110078 B CN110110078 B CN 110110078B
- Authority
- CN
- China
- Prior art keywords
- content
- intention
- language fragment
- text
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 42
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 239000012634 fragment Substances 0.000 claims abstract description 461
- 238000005065 mining Methods 0.000 claims abstract description 217
- 238000000034 method Methods 0.000 claims abstract description 65
- 238000009412 basement excavation Methods 0.000 claims abstract description 38
- 238000012216 screening Methods 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 14
- 230000001737 promoting effect Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 25
- 238000012423 maintenance Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 241001464837 Viridiplantae Species 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001212 derivatisation Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010027940 Mood altered Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005389 magnetism Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种数据处理方法和装置、用于数据处理的装置,其中的方法具体包括:依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。本发明实施例可以挖掘得到具备较为精确的商业意图的意图语言片段。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种数据处理方法和装置、以及一种用于数据处理的装置。
背景技术
随着信息技术的飞速发展,用户往往通过互联网产生大量的输入内容,例如,用户通过搜索引擎产生的查询内容,又如,用户通过社交平台发布的内容等。这些输入内容中通常包含了用户相关的丰富信息,且通常隐含用户的真实需求和意图。
为了从用户的输入内容中挖掘用户的意图,现有方案可以利用NER(命名实体识别,Named Entity Recognition)技术,从用户的输入内容中识别实体,将识别得到的实体作为用户的意图。其中,NER是指识别文本中具有特定意义的实体。
现有方案能够从用户的输入内容中挖掘得到实体。目前的实体往往仅仅包括人名、地名、机构名、物品名、专有名词等,在商业场景下,用户关注的实体通常包括:商品实体,商品实体的例子可以包括:“手机名”、“服装名”等。然而,这些实体仅仅能够粗略地反映用户的意图,如用户的输入内容中包括商品实体“手机”,仅仅能够粗略地反映用户对于“手机”存在需求,而无法反映用户的精确意图,如用户需求的是哪个价位的手机、哪个品牌的手机等、或者某品牌哪个型号的手机、对于出问题的手机进行维修等。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法、数据处理装置、用于数据处理的装置,本发明实施例可以挖掘得到具备较为精确的商业意图的意图语言片段。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
可选地,所述依据第一意图语言片段,构建挖掘模板,包括:
从查询内容和/或推广内容中获取与第一意图语言片段相匹配的第一文本;
从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;
将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
可选地,所述利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段,包括:
将查询内容和/或推广内容中的文本与所述挖掘模板中所述上下文字段的内容进行匹配,以得到所述查询内容和/或推广内容中包括的、与所述上下文字段的内容相匹配的第三文本;
按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系、以及所述第三文本,从所述查询内容和/或推广内容中获取所述意图语言片段字段对应的内容,作为第二意图语言片段。
可选地,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的排列方式。
可选地,所述方法还包括:
将预设的意图语言片段作为第一意图语言片段;和/或
从推广内容中提取第一意图语言片段;和/或
从所述第二意图语言片段中获取第一意图语言片段。
可选地,所述利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段,包括:
依据所述挖掘模板对于查询内容和/或推广内容的命中情况,对所述挖掘模板进行筛选;
利用筛选后的挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
可选地,所述方法还包括:
依据所述第二意图语言片段的片段特征,对所述第二意图语言片段进行筛选;
所述片段特征包括如下特征中的至少一种:出现频率、切分概率、是否带停用词和长度。
本发明实施例公开了一种数据处理方法,包括:
接收用户的当前输入内容;
若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
输出所述第一推荐信息。
可选地,所述方法还包括:
若所述当前输入内容包括与意图语言片段相匹配的内容、且所述当前输入内容对应的意图为第一意图,则依据所述意图语言片段和所述第一意图,确定第二推荐信息;
输出所述第二推荐信息。
可选地,通过如下步骤确定所述当前输入内容对应的意图:
确定所述当前输入内容对应的第一特征;所述第一特征包括:所述用户的输入内容对应的特征、或者所述用户的输入内容对应的特征和所述意图语言片段对应的特征;所述输入内容包括:所述当前输入内容、或者所述当前输入内容和历史输入内容;
依据第一特征与第一意图之间的映射关系,确定所述第一特征对应的意图,作为所述当前输入内容对应的意图。
可选地,所述方法还包括:
确定所述意图语言片段在所述第一意图中的强度概率;
若所述强度概率超过概率阈值,则所述依据所述意图语言片段和所述第一意图,确定第二推荐信息。
可选地,所述方法还包括:
若所述当前输入内容对应的意图不为第二意图,则触发所述若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息。
可选地,所述方法还包括:
若所述当前输入内容对应的意图为第二意图,则结束所述方法对应的流程。
另一方面,本发明实施例公开了一种数据处理装置,包括:
模板构建模块,用于依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;以及
挖掘模块,用于利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
可选地,所述模板构建模块包括:
第一文本获取子模块,用于从查询内容和/或推广内容中获取与第一意图语言片段相匹配的第一文本;
第二文本获取子模块,用于从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;以及
组合子模块,用于将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
可选地,所述挖掘模块包括:
匹配子模块,用于将查询内容和/或推广内容中的文本与所述挖掘模板中所述上下文字段的内容进行匹配,以得到所述查询内容和/或推广内容中包括的、与所述上下文字段的内容相匹配的第三文本;以及
第二意图语言片段子模块,用于按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系、以及所述第三文本,从所述查询内容和/或推广内容中获取所述意图语言片段字段对应的内容,作为第二意图语言片段。
可选地,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的排列方式。
可选地,所述装置还包括:
第一获取模块,用于将预设的意图语言片段作为第一意图语言片段;和/或
第二获取模块,用于从推广内容中提取第一意图语言片段;和/或
第三获取模块,用于从所述第二意图语言片段中获取第一意图语言片段。
可选地,所述挖掘模块包括:
第一筛选子模块,用于依据所述挖掘模板对于查询内容和/或推广内容的命中情况,对所述挖掘模板进行筛选;
挖掘子模块,用于利用筛选后的挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
可选地,所述装置还包括:
第二筛选模块,用于依据所述第二意图语言片段的片段特征,对所述第二意图语言片段进行筛选;
所述片段特征包括如下特征中的至少一种:出现频率、切分概率、是否带停用词和长度。
另一方面,本发明实施例公开了一种数据处理装置,包括:
接收模块,用于接收用户的当前输入内容;
第一推荐信息确定模块,用于若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;以及
第一输出模块,用于输出所述第一推荐信息。
可选地,所述装置还包括:
第二推荐信息确定模块,用于若所述当前输入内容包括与意图语言片段相匹配的内容、且所述当前输入内容对应的意图为第一意图,则依据所述意图语言片段和所述第一意图,确定第二推荐信息;
第二输出模块,用于输出所述第二推荐信息。
可选地,所述装置还包括:
第一特征确定模块,用于确定所述当前输入内容对应的第一特征;所述第一特征包括:所述用户的输入内容对应的特征、或者所述用户的输入内容对应的特征和所述意图语言片段对应的特征;所述输入内容包括:所述当前输入内容、或者所述当前输入内容和历史输入内容;
意图确定模块,用于依据第一特征与第一意图之间的映射关系,确定所述第一特征对应的意图,作为所述当前输入内容对应的意图。
可选地,所述装置还包括:
强度概率确定模块,用于确定所述意图语言片段在所述第一意图中的强度概率;
第三推荐信息确定模块,用于若所述强度概率超过概率阈值,则依据所述意图语言片段和所述第一意图,确定第二推荐信息。
可选地,所述装置还包括:
触发模块,用于若所述当前输入内容对应的意图不为第二意图,则触发所述第一推荐信息确定模块。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收用户的当前输入内容;
若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
输出所述第一推荐信息。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例利用挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段;上述查询内容可以提供丰富的表达语言,上述推广内容中可以提供具备明确的商业意图的语言,且由于该挖掘模板中的至少一个上下文字段可以对意图语言片段字段的商业意图作出贡献,故本发明实施例可以通过该挖掘模板过滤掉、查询内容和/或推广内容中不具备商业意图、商业意图不显著、商业意图歧义较大或者商业意图不符合要求的上下文,进而提高意图语言片段对应的商业意图。因此,本发明实施例可以挖掘得到意图语言片段,较之传统的实体,该意图语言片段可以具备较为精确的商业意图,如相对于实体“手机”,本发明实施例可以挖掘得到“手机”相关的、具备较为精确的商业意图的意图语言片段,如“手机黑屏”、“手机价格”、“手机排行榜”、“手机型号”等。
并且,相对于传统的实体通常为名词或名词性短语,本发明实施例的意图语言片段可以不局限于名词,该意图语言片段的词除了包括名词之外,还可以包括动词,因此,该意图语言片段可以为名词与动词对应的词组或者短语,词组的例子可以包括:“手机黑屏”、“手机价格”、“手机排行榜”等,短语的例子可以包括:“买电影票”、“买机票”、“去旅游”、“电影票团购”等。上述名词与动词对应的词组或者短语可以反映更加精确的商业意图。
附图说明
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2是本发明的另一种数据处理方法实施例的步骤流程图;
图3是本发明的一种数据处理方法的应用环境的示意;
图4是本发明的一种数据处理方法实施例的步骤流程图;
图5是本发明的一种数据处理方法实施例的步骤流程图;
图6是本发明的一种数据处理方法实施例的步骤流程图;
图7是本发明的一种数据处理方法实施例的步骤流程图;
图8是本发明的一种数据处理装置实施例的结构框图;
图9是本发明的一种数据处理装置实施例的结构框图;
图10是根据一示例性实施例示出的一种用于数据处理的装置作为终端时的框图;及
图11是根据一示例性实施例示出的一种用于数据处理的装置作为服务器时的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种数据处理方案,该方案可以依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板具体可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段可以交替出现;并利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
本发明实施例中,意图语言片段可以指与商业意图相关的表达语言,该语言片段可以包括:词、词组、或者短语等。其中,该语言片段的词可以包括:名词、或者动词;词组或者短语可以包括:名词+名词、名词+动词等。词组的例子可以包括:“手机黑屏”、“手机价格”、“手机排行榜”等,短语的例子可以包括:“买电影票”、“买机票”、“去旅游”等。
本发明实施例将查询内容和/或推广内容作为意图语言片段对应的数据源。其中,查询内容可以指用户向搜索引擎等搜索平台提交的查询词等内容,其包括具备查询意图的表达语言,故可以作为意图语言片段对应的数据源。推广内容可以指供应商(用于提供某领域内的产品和/或服务)需要推广的内容,推广内容的例子可以包括:推广关键词等,由于上述推广内容通常为供应商选择的内容,故上述推广内容往往具备明确的商业意图,因此,将推广内容作为意图语言片段对应的数据源,可以从推广内容中挖掘得到具备明确的商业意图的意图语言片段,例如,商品相关的意图语言片段可以包括:商品型号、商品品牌和商品别名等商品信息中的至少一种,相对于实体通常为商品名称以至于仅仅能够粗略地反映与商品相关的意图,本发明实施例将推广内容作为意图语言片段对应的数据源,可以使挖掘得到的意图语言片段更精确地反映商业意图,如与商品相关的精确意图等。
发明人在实施本发明实施例的过程中发现,查询内容和/或推广内容中可能包括意图语言片段,但查询内容和/或推广内容中还可以包括有意图语言片段对应的大量上下文,上述大量上下文具体包括:具备商业意图和/或不具备商业意图的内容。针对查询内容和/或推广内容中包括有意图语言片段对应的大量上下文的现象,本发明实施例构建的挖掘模板具体可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;由于该挖掘模板中的至少一个上下文字段可以对意图语言片段字段的商业意图作出贡献,故本发明实施例可以通过该挖掘模板过滤掉、查询内容和/或推广内容中不具备商业意图或者商业意图不符合要求的上下文,进而提高意图语言片段对应的商业意图。
综上,本发明实施例利用挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段;上述查询内容可以提供丰富的表达语言,上述推广内容中可以提供具备明确的商业意图的语言,且由于该挖掘模板中的至少一个上下文字段可以对意图语言片段字段的商业意图作出贡献,故本发明实施例可以通过该挖掘模板过滤掉、查询内容和/或推广内容中不具备商业意图或者商业意图不符合要求的上下文,进而提高意图语言片段对应的商业意图。因此,本发明实施例可以挖掘得到意图语言片段,较之传统的实体,该意图语言片段可以具备较为精确的商业意图,如相对于实体“手机”,本发明实施例可以挖掘得到“手机”相关的、具备较为精确的商业意图的意图语言片段,如“手机黑屏”、“手机价格”、“手机排行榜”、“手机型号”等。
并且,相对于传统的实体通常为名词,本发明实施例的意图语言片段可以不局限于名词,该意图语言片段的词除了包括名词之外,还可以包括动词,因此,该意图语言片段可以为名词与动词对应的词组或者短语;词组的例子可以包括:“手机黑屏”、“手机价格”、“手机排行榜”等,短语的例子可以包括:“买电影票”、“买机票”、“去旅游”等。上述名词与动词对应的词组或者短语可以反映更加精确的商业意图。
本发明实施例挖掘得到意图语言片段可被广泛应用于搜索广告的大量场景中,例如意图识别、推荐、商业实体识别、查询与广告相关性计算等场景中。
本发明实施例挖掘得到的意图语言片段可被应用于各种领域的推荐场景中,领域的例子可以包括:旅游领域(景区门票、酒店旅馆等)、电商领域(电商网站、日常商品、日常家电等)、交通购票领域(飞机票、火车票、汽车票)、医疗保健领域(看病挂号、医院信息、保健品购买等)、商品维修领域、理财投资领域等等,可以理解,本发明实施例对于推荐场景对应的具体领域不加以限制。
在本发明的一种实施例中,依据意图语言片段进行推荐的过程可以包括:接收当前输入内容;若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定推荐信息;其中,所述意图语言片段可以为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段可以交替出现;输出所述推荐信息。
本发明实施例中,推荐信息可以指需要推荐的信息。可选地,该推荐信息可以与商品或服务相关。商品对应的推荐信息可以包括:旅游领域中的景区门票、酒店旅馆等,电商领域的商品或服务等,医疗保健领域的保健品或药品或器材等,理财投资领域的理财产品或服务等;服务对应的推荐信息可以包括:交通购票领域的飞机票、火车票、汽车票等运输服务,医疗保健领域的看病挂号、医院信息、医疗咨询等服务,商品维修领域的服务等等。
可选地,上述推荐信息可以为推荐对象相关的信息。对象可以指客观世界中存在的人、事、物体等实体在计算机逻辑中的映射。该推荐对象可以包括:物体、人物、景物、计算机资源等;其中,物体可以包括:实体物品、或者虚拟物品,实体物品的例子可以包括:服饰、家居物、健身器材等,虚拟物品的例子可以包括:游戏币、虚拟道具等;该人物可以包括:明星、作家、孩子等,景物可以为建筑等;计算机资源可以包括:网络信息资源、计算机软件资源(如应用程序等)等,网络信息资源是指以电子资源数据的形式,将文字、图像、声音、动画等多种形式的信息储存在光、磁等非印刷质的介质中,利用计算机通过网络进行发布、传递、储存的各类信息资源的总和。可以理解,本发明实施例对于具体的推荐信息不加以限制。
在本发明的一种实施例中,可以直接向所述用户提供所述推荐信息。具体地,可以通过任意的触达渠道,向用户提供所述推荐信息。上述触达渠道可以包括:电话、短信息、即时通讯、或者UI(用户界面,User Interface)等。例如,本发明实施例可以应用于网站和/或APP(应用程序,Application)的应用环境中,这些网站和/或APP可以通过UI向用户提供所述推荐信息。
在本发明的另一种实施例中,可以间接向所述用户提供所述推荐信息。具体地,可以向所述推荐信息对应的供应商终端发送所述用户的访问入口信息,以使所述供应商终端通过所述访问入口信息、向所述用户的用户终端传输所述推荐信息,进而使所述供应商终端通过建立的连接、向所述用户终端发送所述推荐信息。
可选地,所述访问入口信息可以包括:经过加密的用户通讯信息。上述用户通讯信息可以包括但不限于:电话号码、短信息、电子邮箱、即时通讯号码等具备通讯功能的信息。
可选地,所述访问入口信息包括:经过加密的用户通讯信息,本发明实施例的方法还可以包括:响应于对于所述访问入口信息的触发操作,对所述经过加密的用户通讯信息进行解密;依据解密后的用户通讯信息,在所述供应商终端与所述用户的用户终端之间建立传输通道。
需要说明的是,本发明实施例中,供应商终端与用户终端之间的传输通道可以包括:网络通道、短信通道、或者电话通道等。以电话通道为例,加密后的用户通讯信息可以为经过加密的电话号码、即时通讯号码等,如“ABC”等,若供应商终端拨打“ABC”,则可以对“ABC”进行解密,以得到解密后的电话号码,如“138******”等,并向解密后的电话号码发起呼叫。
本发明实施例中,“响应于对于所述访问入口信息的触发操作,对所述经过加密的用户通讯信息进行解密;和/或,依据解密后的用户通讯信息,在所述供应商终端与所述用户的用户终端之间建立传输通道”对应的执行主体可以为服务器,也可以为通道服务器。通道服务器用于建立传输通道,以短信通道为例,该通道服务器可以包括:短信网关、短信中心等;以电话通道为例,该通道服务器可以包括:中继机房、或者网络运营商的机房(如移动运营商的机房、联通运营商的机房、或者电信运营商的机房等);以网络通道为例,该通道服务器可以为网站服务器、或者应用程序的服务器等。
在本发明的一种应用示例中,假设针对用户A的推荐信息为“奔驰”,故可以向“奔驰”对应的供应商终端发送用户A的经过加密的用户通讯信息(如电话号码);假设供应商为汽车销售服务站,则供应商终端可以为汽车销售服务站的员工所拥有的终端,故汽车销售服务站的员工可以通过触发经过加密的用户通讯信息,向用户A传输“奔驰”的相关信息。
综上,由于本发明实施例向所述推荐信息对应的供应商终端发送的是经过加密的用户通讯信息,故可以在一定程度上避免用户通讯信息的泄露,因此可以更好地保护用户隐私。
可以理解,上述经过加密的用户通讯信息只是作为访问入口信息的示例,实际上,任意的能够起到向所述用户的用户终端传输所述推荐信息的作用的访问入口信息均在本发明实施例的访问入口信息的保护范围内,例如,该访问入口信息还可以包括:用于建立传输通道的链接等,本发明实施例对于具体的访问入口信息不加以限制。
方法实施例
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段可以交替出现;
步骤102、利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
步骤101,第一意图语言片段在意图语言片段的挖掘过程中可以起到种子作用,也即,可以利用种子的繁殖和衍生能力,依据第一意图语言片段,构建挖掘模板,并利用所述挖掘模板,从查询内容和/或推广内容中挖掘得到作为所述第一意图语言片段的衍生物的第二意图语言片段,由此可以实现意图语言片段的扩展和衍生。
根据一种实施例,可以将预设的意图语言片段作为第一意图语言片段。例如,可以通过人工方式设定第一意图语言片段,这里的人工可以指前台的用户,也可以指后台的工作人员。
根据另一种实施例,可以从推广内容中提取第一意图语言片段,由于上述推广内容中可以提供具备明确的商业意图的语言,故可以从推广内容中提取第一意图语言片段。例如,供应商购买的推广关键词可以包括:“北京鲜花快递”、“北京鲜花与花卉速递”、“花卉价格”、“快递鲜花”等,故可以从上述推广关键词提取“鲜花”、“花卉”等作为第一意图语言片段。
根据再一种实施例,可以从所述第二意图语言片段中获取第一意图语言片段。其中,可以直接将第二意图语言片段作为第一意图语言片段,或者,可以对所述第二意图语言片段进行排序,并依据排序结果选择部分第二意图语言片段作为第一意图语言片段等等。
可以理解,本发明实施例对于第一意图语言片段对应的具体确定方式、以及具体的第一意图语言片段不加以限制。
步骤101中,该挖掘模板中的意图语言片段字段可用于表征意图语言片段,该上下文字段可用于表征意图语言片段对应的上下文。该挖掘模板中的至少一个上下文字段可以对意图语言片段字段的商业意图作出贡献,故本发明实施例可以通过该挖掘模板过滤掉、查询内容和/或推广内容中不具备商业意图或者商业意图不符合要求的上下文,进而提高意图语言片段对应的商业意图。
在本发明的一种可选实施例中,可以将针对第一意图语言片段预设的模板作为挖掘模板。可选地,依据第一意图语言片段对应的搭配规律,得到挖掘模板。例如,可以依据第一意图语言片段的词性等特征,确定第一意图语言片段对应的搭配词,并将该搭配词作为挖掘模板的上下文字段对应的内容。例如,第一意图语言片段“鲜花”对应的搭配词可以包括“快递”、“购买”、“预订”等,因此可以将“快递”、“购买”、“预订”作为挖掘模板的上下文字段对应的内容。
在本申请的一种可选实施例中,所述步骤101依据第一意图语言片段,构建挖掘模板的过程,具体可以包括:从查询内容和/或推广内容中获取与第一意图语言片段相匹配的第一文本;从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
以推广关键词“北京鲜花快递”为例,假设第一意图语言片段为“鲜花”,则可以从“北京鲜花快递”中获取第一文本“鲜花”、以及第二文本“北京”和“快递”,并分别将第二文本“北京”和“快递”作为上下文字段对应的内容,将所述第一文本“鲜花”对应的字段作为意图语言片段字段,最终可以对意图语言片段字段和上下文字段对应的内容进行组合,以得到挖掘模板“北京phrase快递”。其中,“phrase”表示意图语言片段字段对应的标识,本发明实施例对于具体的标识不加以限制。
需要说明的是,挖掘模板中,意图语言片段字段不对应具体内容,可以通过步骤102,从查询内容和/或推广内容中挖掘意图语言片段字段对应的具体内容,并将意图语言片段字段对应的具体内容作为第二意图语言片段。
第一文本与第一意图语言片段相匹配可以包括:相同、相似或者相关等。可选地,可以确定第一文本与第一意图语言片段之间的相似度,并在该相似度超过相似度阈值的情况下,确定第一文本与第一意图语言片段相匹配。可选地,可以分别确定第一文本与第一意图语言片段对应的第一词向量和第二词向量,并计算第一词向量和第二词向量之间的相似度。
以推广关键词“北京鲜花与花卉速递”为例,假设第一意图语言片段为“鲜花”和“花卉”,按照上面的流程,可以得到挖掘模板:“北京phrase与phrase速递”。
以推广关键词“花卉价格”为例,假设第一意图语言片段为“花卉”,按照上面的流程,可以得到挖掘模板:“phrase价格”。
以推广关键词“快递鲜花”为例,假设第一意图语言片段为“鲜花”,按照上面的流程,可以得到挖掘模板:“快递phrase”。
在本发明的一种实施例中,所述挖掘模板包括至少一个意图语言片段字段和至少一个上下文字段对应的排列方式。
所述至少一个意图语言片段字段和至少一个上下文字段对应的排列方式具体可以包括:
1)依次出现的意图语言片段字段和上下文字段,可以表示为“phrasecontext”,其中,context表示上下文字段对应的标识,对应的例子可以包括:“phrase价格”、“phrase票价”等;和/或
2)依次出现的上下文字段和意图语言片段字段,可以表示为“contextphrase”,对应的例子可以包括:“快递phrase”等;和/或
3)依次出现的上下文字段、意图语言片段字段和上下文字段,可以表示为“context phrase context”,如“北京phrase快递(如北京鲜花快递,北京图书快递等)”、“北京phrase团购(如北京电影票团购)”、“上海phrase快递”等;和/或
4)依次出现的上下文字段、意图语言片段字段、上下文字段和意图语言片段字段,可以表示为“context phrase context phrase”,如“北京phrase与phrase速递”等;和/或
依次出现的上下文字段、意图语言片段字段、上下文字段、意图语言片段字段和上下文字段,可以表示为“context phrase context phrasecontext”,对应的例子可以包括:“北京phrase和phrase哪里便宜(如北京鲜花和花卉哪里便宜)”;和/或
5)依次出现的意图语言片段字段、上下文字段、意图语言片段字段和上下文字段,可以表示为“phrase context phrase context”,对应的例子可以包括:“phrase和phrase哪个更好”,如“三星手机和苹果手机哪个更好”。
可以理解,上述搭配模板只是作为可选实施例,实际上,本领域技术人员可以依据第一意图语言片段对应的搭配规律,得到所需的任意挖掘模板;或者,依据查询内容和/或推广内容得到第一意图语言片段对应的任意搭配模板,本发明实施例对于具体的搭配模板不加以限制。
本发明实施例中的搭配模板可以包括:至少两个意图语言片段字段,此种情况下,该搭配模板可以在至少两个意图语言片段字段并列的情况下,同时覆盖至少两个意图语言片段字段,由此可以通过该搭配模板从查询内容和/或推广内容中挖掘得到具备并列关系的至少两个意图语言片段字段。
步骤102中,查询内容可以来源于查询日志,该查询日志中可以包括互联网中的至少一个用户输入过的查询内容。推广内容可以来源于广告库,该广告库中可以包括广告供应商购买的用于广告投放的推广关键词。可以理解,本发明实施例对于查询内容和/或推广内容的具体来源不加以限制。
步骤102中,可以按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系,从查询内容和/或推广内容中挖掘第二意图语言片段。
在本发明的一种可选实施例中,所述利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段的过程,具体可以包括:将查询内容和/或推广内容中的文本与所述挖掘模板中所述上下文字段的内容进行匹配,以得到所述查询内容和/或推广内容中包括的、与所述上下文字段的内容相匹配的第三文本;按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系、以及所述第三文本,从所述查询内容和/或推广内容中获取所述意图语言片段字段对应的内容,作为第二意图语言片段。
在本发明实施例的一种应用示例中,假设挖掘模板为“北京phrase快递”,查询内容为“北京图书快递”,则可以得到查询内容中与上下文字段相匹配的“北京”和“快递”,并且,可以按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系,将“北京图书快递”中“北京”和“快递”之间的文本“图书”,作为第二意图语言片段。
同理,假设查询内容或者推广内容中包括“北京鲜花绿植快递”、“北京鲜花与绿植速递”“”,则可以分别命中“北京phrase快递”与“北京phrase与phrase速递”两个搭配模板,因此得到如下第二意图语言片段:“鲜花绿植”、“鲜花”、“绿植”,其中,“鲜花绿植”、“绿植”不同于第一意图语言片段,因此,本发明实施例可以实现意图语言片段的挖掘和扩展。
在本发明的另一种可选实施例中,所述步骤102利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段的过程,具体可以包括:依据所述挖掘模板对于查询内容和/或推广内容的命中情况,对所述挖掘模板进行筛选;利用筛选后的挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。由于上述命中情况可以反映所述挖掘模板的质量指标,故本发明实施例依据上述命中情况对所述挖掘模板进行筛选,故可以使得筛选后的挖掘模板具备较高的可用性和可靠性。
可选地,所述命中情况可以包括:命中频率和/或命中上下文的文本长度。其中,命中频率可以指挖掘模板对于查询内容和/或推广内容的命中次数、或者命中次数与查询内容和/或推广内容的数量的比值等,通常命中频率越高,则挖掘模板的质量越高。命中上下文的文本长度可以指挖掘模板命中查询内容和/或推广内容的情况下,查询内容和/或推广内容的长度,通常该文本长度越大,对应的噪声越小,则挖掘模板的质量越高。在采用命中频率和命中上下文的文本长度的情况下,可以对命中频率和命中上下文的文本长度进行加权,并依据加权结果,对所述挖掘模板进行筛选。
可选地,依据所述挖掘模板对于查询内容和/或推广内容的命中情况,对所述挖掘模板进行筛选的过程可以包括:依据上述命中情况对应的得分从高到底,对所述挖掘模板进行排序;并从得到的第一排序结果中选择排在前M(M为自然数)位的挖掘模板,或者,从得到的第一排序结果中选择得分超过第一得分阈值的挖掘模板,作为筛选后的挖掘模板。可以理解,本发明实施例对于对所述挖掘模板进行筛选的具体过程不加以限制。
在本发明的一种可选实施例中,本发明实施例的方法可以还包括:依据所述第二意图语言片段的片段特征,对所述第二意图语言片段进行筛选。本发明实施例对所述第二意图语言片段进行筛选,可以使得筛选后的第二意图语言片段具有较高的质量。
可选地,所述片段特征具体可以包括如下特征中的至少一种:出现频率、切分概率、是否带停用词和长度。
其中,出现频率可以指第二意图语言片段在查询内容和/或推广内容中的出现次数、或者出现次数与查询内容和/或推广内容的数量的比值等。通常,出现频率越高,则第二意图语言片段的质量越高。
切分概率可用于表示第二意图语言片段被切分的概率,其可以反映第二意图语言片段的紧密程度。可选地,可以对第二意图语言片段进行分词,并利用语言模型确定第二意图语言片段包括的至少一个词对应的切分概率。通常切分概率越小,则第二意图语言片段的质量越高。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(StopWords)。因此,通常若第二意图语言片段带有停用词,则对应的质量偏低,反之,若第二意图语言片段不带停用词,则对应的质量偏高。
长度可以指第二意图语言片段的长度,通常该长度越大,则第二意图语言片段的质量越高。
可以理解,上述出现频率、切分概率、是否带停用词和长度只是作为片段特征的示例,实际上本领域技术人员可以根据实际应用需求,采用所需的其他片段特征,如连贯性特征、通顺程度特征等。
在本发明的一种可选实施例中,可以采用机器学习模型,依据所述片段特征,确定所述第二意图语言片段对应的质量分数,并依据该质量分数对该第二意图语言片段进行排序,并从得到的第二排序结果中选择排在前N(N为自然数)位的第二意图语言片段,或者,从得到的第二排序结果中选择得分超过第二得分阈值的第二意图语言片段,作为筛选后的第二意图语言片段。可以理解,本发明实施例对于对所述第二意图语言片段进行筛选的具体过程不加以限制。进一步,还可以对筛选后的第二意图语言片段进行人工标注,例如人工标注质量分数最高的前P个第二意图语言片段,以增加前P个第二意图语言片段被使用的概率。
综上,本发明实施例的数据处理方法,利用挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段;上述查询内容可以提供丰富的表达语言,上述推广内容中可以提供具备明确的商业意图的语言,且由于该挖掘模板中的至少一个上下文字段可以对意图语言片段字段的商业意图作出贡献,故本发明实施例可以通过该挖掘模板过滤掉、查询内容和/或推广内容中不具备商业意图或者商业意图不符合要求的上下文,进而提高意图语言片段对应的商业意图。因此,本发明实施例可以挖掘得到意图语言片段,较之传统的实体,该意图语言片段可以具备较为精确的商业意图,如相对于实体“手机”,本发明实施例可以挖掘得到“手机”相关的、具备较为精确的商业意图的意图语言片段,如“手机黑屏”、“手机价格”、“手机排行榜”、“手机型号”等。
并且,相对于传统的实体通常为名词,本发明实施例的意图语言片段可以不局限于名词,该意图语言片段的词除了包括名词之外,还可以包括动词,因此,该意图语言片段可以为名词与动词对应的词组或者短语,词组的例子可以包括:“手机黑屏”、“手机价格”、“手机排行榜”等,短语的例子可以包括:“买电影票”、“买机票”、“去旅游”等。上述名词与动词对应的词组或者短语可以反映更加精确的商业意图。
作为一种示例,该意图语言片段可以包括:商品实体(如家电名、服装名、商品品牌名称、汽车等)、药品名称、提供服务名称(如洗车、家电维修、家政信息等)、票务名称、疾病名称等等实体名。
作为另一种示例,该意图语言片段可以包括如下名词:“机票”,“电影票”、某商品型号(如“华为note3”)、“电影院名称”、“手机价格”、“机票价格”、“手机排行榜”等。
作为再一种示例,该意图语言片段可以包括如下短语:“买电影票”、“买机票”、“去旅游”、“购买手机”、“手机哪里便宜”、“李宁价格”等。对于“购买手机”、“手机哪里便宜”、“李宁价格”等意图语言片段而言,其具有较强的询价倾向,在实际使用中带来的歧义会比仅仅使用单纯的实体名称“手机”、“李宁”等小很多。从而有助于识别出具有商业意图的查询。
需要说明的是,本发明实施例的意图语言片段可以包括:某实体的别名或者错别名,如“苹果”的错别名为“平果”等。
参照图2,示出了本发明的另一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201、依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段可以交替出现;
步骤202、利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段;
步骤203、依据所述第二意图语言片段的片段特征,对所述第二意图语言片段进行筛选;
步骤204、将筛选后的第二意图语言片段,保存至意图语言片段集合;
步骤205、从所述意图语言片段集合中获取第一意图语言片段,并将获取结果输入至步骤201。
本发明实施例可以依据挖掘得到的第二意图语言片段,构建意图语言片段集合,从所述意图语言片段集合中获取第一意图语言片段,并所述第一意图语言片段应用于意图语言片段的挖掘,可以理解,本发明实施例中意图语言片段的挖掘过程可以为迭代过程,该迭代过程可以得到更多的挖掘模板,且可以得到更多的意图语言片段。
本发明实施例提供了一种数据处理方案,该方案可以接收用户的当前输入内容;若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定推荐信息;其中,所述意图语言片段可以为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;输出所述推荐信息。
本发明实施例中推荐触发条件具体包括:当前输入内容包括与意图语言片段相匹配的内容,由于较之传统的实体,该意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,故该意图语言片段可以具备较为精确的商业意图;因此,本发明实施例采用该意图语言片段对应的推荐触发条件,可以在一定程度上避免用户不需要的推荐信息对于用户的打扰。例如,本发明实施例挖掘得到的与“手机”相关的意图语言片段可以包括:“手机黑屏”、“手机价格”、“手机排行榜”、“手机型号”、“买手机”等,在当前输入内容包括与意图语言片段相匹配的内容的情况下,本发明实施例才会触发推荐,而在当前输入内容(“我手机上装了很多软件”)仅仅包括“手机”的情况下,则可以不触发推荐,因此可以在一定程度上避免用户不需要的推荐信息对于用户的打扰。
另外,本发明实施例在满足推荐触发条件的条件下,向用户提供的推荐信息是依据所述意图语言片段得到的,由于较之传统的实体,该意图语言片段可以具备较为精确的商业意图,故依据该意图语言片段得到的推荐信息也具有较高的准确性,因此可以提高推荐信息的准确度。例如,当前输入内容为“我的手机黑屏了,但是有声音”,则对应的推荐信息可以为“手机黑屏”相关的维修信息(如维修电话、维修方案等)。
本发明实施例提供的推荐方法可应用于图3所示的应用环境中,其中,服务器100、供应商终端200和用户终端300位于有线或无线网络中,通过该有线或无线网络,服务器100与供应商终端200进行数据交互,或者,服务器100与用户终端300进行数据交互。
用户终端300可以指计算机网络中处于网络最外围的设备,主要用于用户信息的输入以及处理结果的输出等。用户终端300可以包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture Experts Group AudioLayer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving Picture ExpertsGroup Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
可选地,供应商可用于提供某领域内的产品和/或服务,假设将产品和/或服务抽象为对象,则供应商终端200可以向服务器100提供对象集合,以使服务器100从对象集合中获取推荐信息。供应商终端200还可以向服务器100提供广告库,该广告库中可以包括供应商的推广关键词。
服务器100可以通过本发明实施例的推荐方法,依据用户终端300产生的当前输入内容,确定对应的推荐信息,并向用户终端300提供所述推荐信息。其中。服务器100可以直接向用户终端300发送所述推荐信息,或者,服务器100可以供应商终端200中转的方式向用户终端300提供所述推荐信息。
参照图4,示出了本发明的一种推荐方法实施例的步骤流程图,具体可以包括如下步骤:
步骤401、接收用户的当前输入内容;
步骤402、若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;
其中,所述意图语言片段可以为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
步骤403、输出所述第一推荐信息。
本发明实施例所包括的步骤401至步骤403可以服务器和客户端中的任一或者组合执行。
本发明实施例的客户端可以为用户终端上任意APP对应的客户端。例如,客户端可以为输入法APP的客户端,作为寄宿APP,输入法APP可以寄宿于宿主APP中,捕获宿主APP对应的输入内容。又如,客户端可以为宿主APP的客户端,宿主APP的例子可以包括:即时通讯APP、浏览器APP、搜索APP、社交APP、电商APP等。再如,客户端还可以为网站的客户端等。
步骤401中,客户端可以接收用户的当前输入内容,或者,服务器可以接收客户端发送的用户的当前输入内容。当前输入内容可以指输入时间与当前时间之间的时间差值绝对值不超过第一时间阈值的内容,第一时间阈值可以为T1分钟,这样,当前输入内容可以为T1分钟内的输入内容。
本发明实施例对于步骤401中当前输入内容对应的具体应用环境不加以限制。当前输入内容对应的应用环境可以包括但不限于:即时通讯环境、搜索环境、社交环境、电商环境等。
步骤402中,所述当前输入内容包括与意图语言片段相匹配的内容,可以指当前输入内容包括的内容与意图语言片段相同、相似、或者相关等。可选地,可以分别确定当前输入内容所包括内容与意图语言片段对应的第三词向量和第四词向量,并计算第三词向量和第四词向量之间的相似度。
根据一种实施例,步骤402依据所述意图语言片段确定第一推荐信息的过程,可以包括:依据意图语言片段,在意图语言片段与推荐信息之间的映射关系中进行查找,以得到所述意图语言片段对应的第一推荐信息。
其中,推荐信息可以源自供应商,例如,商品维修领域的供应商可以提供商品维修相关的推荐信息,且该推荐信息还可以对应有关键词,本发明实施例可以根据该推荐信息及其对应的关键词,建立意图语言片段与推荐信息之间的映射关系。或者,意图语言片段与推荐信息之间的映射关系可以源自供应商。可以理解,本发明实施例对于意图语言片段与推荐信息之间的映射关系对应的具体确定方式不加以限制。
根据另一种实施例,步骤402依据所述意图语言片段确定第一推荐信息的过程,可以包括:确定所述意图语言片段对应的推荐对象,并所述推荐对象对应的信息作为第一推荐信息。所述意图语言片段对应的推荐对象可以源自供应商提供的对象集合,该对象集合可以包括对象关键词,对象关键词还可以对应有具体的推荐信息。例如,意图语言片段为“三星Galaxy Note8”,则推荐对象可以为“三星Galaxy Note8”;又如,意图语言片段为“太原到北京的火车票”,则推荐对象可以为“太原到北京的火车票”。
步骤403中,输出所述第一推荐信息的过程可以包括:输出所述第一推荐信息对应的链接,该链接可以包括对应的提示信息,以使用户根据需要触发该链接。响应地,本发明实施例还可以响应于用户对于该链接的触发操作,显示该推荐信息。当然,本发明实施例对于输出所述第一推荐信息的具体过程不加以限制,本发明实施例还可以直接输出所述第一推荐信息,例如,在弹出的窗口或者浮层中显示所述第一推荐信息等。
综上,本发明实施例的推荐方法,推荐触发条件具体包括:当前输入内容包括与意图语言片段相匹配的内容,由于较之传统的实体,该意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,故该意图语言片段可以具备较为精确的商业意图;因此,本发明实施例采用该意图语言片段对应的推荐触发条件,可以在一定程度上避免用户不需要的推荐信息对于用户的打扰。例如,本发明实施例挖掘得到的与“手机”相关的意图语言片段可以包括:“手机黑屏”、“手机价格”、“手机排行榜”、“手机型号”、“买手机”等,在当前输入内容包括与意图语言片段相匹配的内容的情况下,本发明实施例才会触发推荐,而在当前输入内容(“我手机上装了很多软件”)仅仅包括“手机”的情况下,则可以不触发推荐,因此可以在一定程度上避免用户不需要的推荐信息对于用户的打扰。
另外,本发明实施例在满足推荐触发条件的条件下,向用户提供的第一推荐信息是依据所述意图语言片段得到的,由于较之传统的实体,该意图语言片段可以具备较为精确的商业意图,故依据该意图语言片段得到的第一推荐信息也具有较高的准确性,因此可以提高推荐信息的准确度。例如,当前输入内容为“我的手机黑屏了,但是有声音”,则对应的第一推荐信息可以为“手机黑屏”相关的维修信息(如维修电话、维修方案等)。
参照图5,示出了本发明的一种推荐方法实施例的步骤流程图,具体可以包括如下步骤:
步骤501、接收用户的当前输入内容;
步骤502、若所述当前输入内容包括与意图语言片段相匹配的内容、且所述当前输入内容对应的意图为第一意图,则依据所述意图语言片段和所述第一意图,确定第二推荐信息;
其中,所述意图语言片段可以为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
步骤503、输出所述第二推荐信息。
本发明实施例的推荐触发条件除了包括:当前输入内容包括与意图语言片段相匹配的内容之外,还可以包括:所述当前输入内容对应的意图为第一意图。也即,本发明实施例的推荐触发条件对当前输入内容对应的意图存在要求,在所述当前输入内容包括与意图语言片段相匹配的内容、且当前输入内容对应的意图为第一意图的情况下,才认为用户存在意图语言片段对应的意图,进而向用户提供第二推荐信息。可以理解,在当前输入内容对应的意图不为第一意图的情况下,可以认为用户不存在意图语言片段对应的意图,故可以结束本发明实施例的流程,也即不向用户输出推荐信息。
本发明实施例中,第一意图可以指需要进行推荐的意图、或者商业意图,本领域技术人员可以根据实际应用需求,确定上述第一意图。可选地,该第一意图可以包括但不限于:旅游类意图(景区门票、酒店旅馆等)、电商意图(电商网站、日常商品、日常家电等)、交通购票意图(飞机票、火车票、汽车票)、医疗保健意图(看病挂号、医院信息、保健品购买等)、商品维修意图、理财投资意图等等。
本发明实施例综合利用意图语言片段和当前输入内容对应的意图,确定对应的推荐触发条件,因此可以进一步避免用户不需要的推荐信息对于用户的打扰。
例如,用户的当前输入内容包括:“三星手机怎么下载app”,假设“三星手机”为意图语言片段,故当前输入内容包括与意图语言片段相匹配的内容;然而,该当前输入内容对应的意图为计算机操作意图,故该当前输入内容不具有购买商品的意图或者购买服务的意图,实际上,该当前输入内容对应的意图不在上述第一意图对应的范围内,故可以认为不满足推荐触发条件,因此可以不向用户输出推荐信息。
在本发明的一种可选实施例中,可以通过如下步骤确定所述当前输入内容对应的意图:确定所述当前输入内容对应的第一特征;所述第一特征可以包括:所述用户的输入内容对应的特征、或者所述用户的输入内容对应的特征和所述意图语言片段对应的特征;所述输入内容可以包括:所述当前输入内容、或者所述当前输入内容和历史输入内容;依据第一特征与第一意图之间的映射关系,确定所述第一特征对应的意图,作为所述当前输入内容对应的意图。
在确定当前输入内容对应的意图的过程中,本发明实施例采用的当前输入内容对应的第一特征可以包括:用户的输入内容对应的特征,或者,本发明实施例采用的当前输入内容对应的第一特征可以包括:用户的输入内容对应的特征和所述意图语言片段对应的特征。
其中,输入内容可以包括:所述当前输入内容、或者所述当前输入内容和历史输入内容。历史输入内容可以指输入时间与当前时间之间的时间差值绝对值不超过第二时间阈值的内容,第二时间阈值可以为T2分钟,这样,历史输入内容可以为T2分钟内的输入内容,其中,T2>T1。
历史输入内容可以作为当前输入内容的补充,对当前输入内容对应的意图作出贡献。例如,假设“品牌A手机”为意图语言片段,若历史输入内容包括“不想要品牌A手机”,则即使当前输入内容包括“品牌A手机”,该历史输入内容将会降低当前输入内容属于“品牌A手机”的购买意图的概率。
在本发明的一种实施例中,用户的输入内容对应的特征可以包括:文本特征、或者词向量特征等。文本特征的例子可以包括:N元(N-gram)文法特征,该N元文法特征具体可以包括:N个连续出现的词形成的词序列,N为大于1的正整数。
需要说明的是,本发明实施例中的输入内容可以为词、短语、句子、或者段落的形式出现。对于复句而言,可以将其切分为分句,然后提取分句的特征。对于段落而言,可以将其切分为句子或者分句,然后提取句子或分句的特征。
由于意图语言片段对应的特征可以包含一定的信息,如实体信息和实体属性信息等,如“手机黑屏”既可以包括实体“手机”的信息,又可以包括“手机”的“黑屏”属性信息,因此,意图语言片段对应的特征可以丰富当前输入内容对应的第一特征。
在本发明的一种可选实施例中,可以通过第一意图分类器来表征第一特征与第一意图之间的映射关系,具体地,第一意图分类器具备至少一种第一意图类别的分类能力。其可以依据输入的第一特征,判断第一特征是否属于第一意图类别,或者,判断第一特征属于哪种第一意图类别。例如,第一意图分类器可以具备旅游类意图类别、电商意图类别、交通购票意图类别、医疗保健意图类别、商品维修意图类别、理财投资类别等6种第一意图类别的分类能力。针对输入的第一特征,第一意图分类器可以输出如下分类结果:第一特征属于6种第一意图类别中的任一、或者不属于所有的第一意图类别等。可选地,第一意图分类器还可以输出第一特征属于任意一种第一意图类别的概率。
当然,第一意图分类器的输入为第一特征只是作为可选实施例,实际上,第一意图分类器的输入还可以为输入内容和意图语言片段。
可选地,第一意图分类器对应的训练数据可以包括:至少一种第一意图类别对应的文本数据。在实际应用中,第一意图分类器可以为一类或者多类分类器。第一意图分类器的类型可以包括:SVM(支持向量机,Support Vector Machine)、神经网络、随机森林等。
在本发明的一种可选实施例中,本发明实施例的方法还可以包括:确定所述意图语言片段在所述第一意图中的强度概率;若所述强度概率超过概率阈值,则触发所述依据所述意图语言片段和所述第一意图,确定第二推荐信息。该强度概率可用于反映所述意图语言片段在所述第一意图中的强度,若该强度概率超过概率阈值,则可以进行推荐,也即可以触发步骤503。
假设意图语言片段包括“机票”、“机票哪里便宜”,当前输入内容1为“我这周回北京,还没买机票”,当前输入内容2为“我想买太原到北京的机票,机票哪里便宜”,则对于当前输入内容1,意图语言片段“机票”在交通购票意图中的强度概率为0.5;而对于当前输入内容2,意图语言片段“机票哪里便宜”在交通购票意图中的强度概率为0.9,假设概率阈值为0.6,故可以不针对当前输入内容1进行推荐,而可以针对当前输入内容2进行推荐。
本发明实施例中,可以通过前述的第一意图分类器确定所述强度概率,也可以通过强度确定模型确定上述强度概率。其中,强度确定模型可以为机器学习模型,其可以依据第一特征和第一意图、或者第一特征、第一意图和意图语言片段对应的效果数据,确定上述强度概率。
其中,上述效果数据可用于表征意图语言片段对应的投放效果。
根据一种实施例,上述效果数据可以包括:点击数据、转化数据等,上述点击数据可以指用户点击意图语言片段对应的推荐信息,上述转化数据可用来反映意图语言片段对应的推荐信息对产品销售情况影响程度的指标,主要是指受推荐信息影响而发生购买、注册或信息需求行为的数据。
根据另一种实施例,上述效果数据可以包括:点击率,该点击率可以为意图语言片段对应的推荐信息的点击数与展现数的比值。或者,上述效果数据可以包括:转化率,该转化率可以为受推荐信息影响而发生购买、注册或信息需求行为的转化数与点击数的比值。当然,本发明实施例对于具体的效果数据不加以限制。
需要说明的是,本发明实施例确定所述意图语言片段在第一意图中的强度概率,若所述意图语言片段在任意第一意图中的强度概率超过概率阈值,则可以触发第二推荐信息的获取。若所述意图语言片段在所有第一意图中的强度概率均不超过概率阈值,则可以不触发第二推荐信息的获取,而是结束本发明实施例的流程。
步骤502中,一种第一意图可以对应有查询数据库,例如,旅游类意图、电商意图、交通购票意图、医疗保健意图、商品维修意图、理财投资意图等可以分别对应各自的查询数据库,故步骤502意图语言片段,在第一意图对应的查询数据库中进行查询,以得到对应的第二推荐信息。
或者,向第一意图对应的查询服务主体发生该意图语言片段,并接收该查询服务主体返回的该意图语言片段对应的第二推荐信息等。其中,上述查询服务主体可用于表示针对第一意图提供查询服务的主体。可以理解,本发明实施例对于依据所述意图语言片段和所述第一意图,确定第二推荐信息的具体过程不加以限制。
综上,本发明实施例的数据处理方法,综合利用意图语言片段和当前输入内容对应的意图,确定对应的推荐触发条件,因此可以进一步避免用户不需要的推荐信息对于用户的打扰。
参照图6,示出了本发明的一种推荐方法实施例的步骤流程图,具体可以包括如下步骤:
步骤601、接收用户的当前输入内容;
步骤602、判断所述当前输入内容对应的意图是否为第二意图,若否,则执行步骤603,若是则执行步骤605;
步骤603、若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;
其中,所述意图语言片段可以为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
步骤604、输出所述第一推荐信息;
步骤605、结束。
本发明实施例通过当前输入内容对应的意图是否为第二意图,确定是否执行后续步骤。
其中,第二意图可以指不需要进行推荐、不适于推荐、或者不适于进行商业推荐的意图,或者,第二意图可以为非商业意图,本领域技术人员可以根据实际应用需求,确定上述第二意图。可选地,该第一意图可以包括但不限于:涉及用户隐私(容易引起用户反感)的意图、低俗意图、计算机操作意图、娱乐新闻意图、以及新闻政治意图等等。
例如,用户的当前输入内容包括:“三星手机怎么下载app”,可以确定当前输入内容对应的意图为计算机操作意图,故该当前输入内容不具有购买商品的意图或者购买服务的意图,因此可以认为不满足推荐触发条件,可以结束流程而不向用户输出推荐信息。
在本发明的一种可选实施例中,可以通过如下步骤确定所述当前输入内容对应的意图:确定所述当前输入内容对应的第一特征;所述第一特征可以包括:所述用户的输入内容对应的特征、或者所述用户的输入内容对应的特征和所述意图语言片段对应的特征;所述输入内容可以包括:所述当前输入内容、或者所述当前输入内容和历史输入内容;依据第一特征与第二意图之间的映射关系,确定所述第一特征对应的意图,作为所述当前输入内容对应的意图。
在本发明的一种可选实施例中,可以通过第二意图分类器来表征第一特征与第二意图之间的映射关系,具体地,第二意图分类器具备至少一种第二意图类别的分类能力。其可以依据输入的第一特征,判断第一特征是否属于第二意图类别,或者,判断第一特征属于哪种第二意图类别。例如,第二意图分类器可以具备用户隐私意图类别、低俗意图类别、计算机操作意图类别、娱乐新闻意图类别、以及新闻政治意图类别等5种第二意图类别的分类能力。针对输入的第一特征,第二意图分类器可以输出如下分类结果:第一特征属于5种第二意图类别中的任一、或者不属于所有的第二意图类别等。可选地,第二意图分类器还可以输出第一特征属于任意一种第二意图类别的概率。
当然,第二意图分类器的输入为第一特征只是作为可选实施例,实际上,第二意图分类器的输入还可以为输入内容和意图语言片段。对于第二意图分类器而言,由于其原理与第一意图分类器类似,故在此不作赘述,相互参照即可。
综上,本发明实施例的数据处理方法,通过第二意图表征非商业意图,并通过该第二意图,过滤掉非商业意图的众多场景,如计算机操作场景、音乐娱乐类场景、以及涉及用户隐私的聊天场景(如医疗信息,患病信息)等,因此可以降低错误的推荐情况的发生。
参照图7,示出了本发明的一种推荐方法实施例的步骤流程图,具体可以包括如下步骤:
步骤701、接收用户的当前输入内容;
步骤702、判断所述当前输入内容对应的意图是否为第二意图,得到第一判断结果;
步骤703、判断所述当前输入内容是否包括与意图语言片段相匹配的内容,得到第二判断结果;
若第一判断结果为否、且第二判断结果为是,则执行步骤704;若第一判断结果为是、或者第二判断结果为否,则执行步骤707;
步骤704、判断所述当前输入内容对应的意图是否在第一意图的范围内,若是,则执行步骤705,否则执行步骤707;
步骤705、依据所述意图语言片段和所述第一意图,确定第二推荐信息;
其中,所述意图语言片段可以为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板可以包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
步骤706、输出所述第二推荐信息;
步骤707、结束。
步骤702中,第二意图可用于表征非商业意图,并通过该第二意图,可以过滤掉非商业意图的众多场景。具体地,在当前输入内容对应的意图不为第二意图的情况下,可以认为用户可能具备商品的购买需求或服务的购买需求;或者,在当前输入内容对应的意图为第二意图的情况下,可以认为用户不具备商品的购买需求或服务的购买需求。
步骤703中,可以识别当前输入内容中是否包含意图语言片段。该意图语言片段可以具备较为精确的商业意图;因此,本发明实施例采用该意图语言片段对应的推荐触发条件,可以在一定程度上避免用户不需要的推荐信息对于用户的打扰。
在实际应用中,该意图语言片段可以是商品的实体名称、家电品牌名称、旅游风景区的名称、旅游路线名称,也可以是一些更较为泛化的意图语言片段,例如,“我想买**”、“**的价格”、“**哪里便宜”等等。在所述当前输入内容包括与意图语言片段相匹配的内容的情况下,可以认为用户可能具备商品的购买需求或服务的购买需求;或者,在所述当前输入内容不包括与意图语言片段相匹配的内容的情况下,可以认为用户不具备商品的购买需求或服务的购买需求。
在当前输入内容对应的意图不为第二意图、且所述当前输入内容包括与意图语言片段相匹配的内容的情况下,还可以通过第一意图对当前输入内容的商业性倾向进行整体评估,具体地,若所述当前输入内容对应的意图是否在第一意图的范围内,则可以进行推荐。
在本发明的一种应用示例中,假设意图语言片段包括“鲜花快递”,当前输入内容为“北京鲜花速递哪家网站好?节日送女朋友送什么花比较合适?”、或者“过2天朋友生日,请问北京鲜花速递好点的有哪些”。由于“鲜花速递”与“鲜花快递”相似,故步骤703中可以认为当前输入内容包括与意图语言片段相匹配的内容;步骤702中,可以结合当前输入内容与历史输入内容,发现当前输入内容属于低俗意图、个人隐私意图、娱乐新闻等第二意图的概率都较低。步骤704中,可以结合当前输入内容与历史输入内容,发现当前输入内容属于电商意图的概率较高,因此可以向用户提供“鲜花快递”相关的推荐信息。
在本发明的另一种应用示例中,假设意图语言片段包括“鲜花快递”,当前输入内容为“我最近心情糟透了,北京鲜花快递到了节日就慢慢慢,害的我错过了妇女节,被媳妇骂一顿”;虽然步骤703可以认为当前输入内容包括与意图语言片段相匹配的内容,但由于步骤704中,结合当前输入内容与历史输入内容,发现当前输入内容属于所有第一意图的概率都较低,因此可以不向用户提供“鲜花快递”相关的推荐信息。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图8,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:
模板构建模块801,用于依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;以及
挖掘模块802,用于利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
可选地,所述模板构建模块801可以包括:
第一文本获取子模块,用于从查询内容和/或推广内容中获取与第一意图语言片段相匹配的第一文本;
第二文本获取子模块,用于从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;以及
组合子模块,用于将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
可选地,所述挖掘模块802可以包括:
匹配子模块,用于将查询内容和/或推广内容中的文本与所述挖掘模板中所述上下文字段的内容进行匹配,以得到所述查询内容和/或推广内容中可以包括的、与所述上下文字段的内容相匹配的第三文本;以及
第二意图语言片段子模块,用于按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系、以及所述第三文本,从所述查询内容和/或推广内容中获取所述意图语言片段字段对应的内容,作为第二意图语言片段。
可选地,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的排列方式。
可选地,所述装置还可以包括:
第一获取模块,用于将预设的意图语言片段作为第一意图语言片段;和/或
第二获取模块,用于从推广内容中提取第一意图语言片段;和/或
第三获取模块,用于从所述第二意图语言片段中获取第一意图语言片段。
可选地,所述挖掘模块可以包括:
第一筛选子模块,用于依据所述挖掘模板对于查询内容和/或推广内容的命中情况,对所述挖掘模板进行筛选;
挖掘子模块,用于利用筛选后的挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
可选地,所述装置还可以包括:
第二筛选模块,用于依据所述第二意图语言片段的片段特征,对所述第二意图语言片段进行筛选;
所述片段特征可以包括如下特征中的至少一种:出现频率、切分概率、是否带停用词和长度。
参照图9,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:
接收模块901,用于接收用户的当前输入内容;
第一推荐信息确定模块902,用于若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;以及
第一输出模块903,用于输出所述第一推荐信息。
可选地,所述装置还可以包括:
第二推荐信息确定模块,用于若所述当前输入内容可以包括与意图语言片段相匹配的内容、且所述当前输入内容对应的意图为第一意图,则依据所述意图语言片段和所述第一意图,确定第二推荐信息;
第二输出模块,用于输出所述第二推荐信息。
可选地,所述装置还可以包括:
第一特征确定模块,用于确定所述当前输入内容对应的第一特征;所述第一特征可以包括:所述用户的输入内容对应的特征、或者所述用户的输入内容对应的特征和所述意图语言片段对应的特征;所述输入内容可以包括:所述当前输入内容、或者所述当前输入内容和历史输入内容;
意图确定模块,用于依据第一特征与第一意图之间的映射关系,确定所述第一特征对应的意图,作为所述当前输入内容对应的意图。
可选地,所述装置还可以包括:
强度概率确定模块,用于确定所述意图语言片段在所述第一意图中的强度概率;
第三推荐信息确定模块,用于若所述强度概率超过概率阈值,则依据所述意图语言片段和所述第一意图,确定第二推荐信息。
可选地,所述装置还可以包括:
触发模块,用于若所述当前输入内容对应的意图不为第二意图,则触发所述第一推荐信息确定模块。
可选地,所述装置还可以包括:
结束模块,用于若所述当前输入内容对应的意图为第二意图,则控制所述装置停止工作。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行图1至图7一个或多个所示方法对应的指令。
具体地,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
具体地,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收用户的当前输入内容;若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;输出所述第一推荐信息
图10是根据一示例性实施例示出的一种用于数据处理的装置作为终端时的框图。例如,终端1100可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图10,终端1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电源组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)的接口1112,传感器组件1114,以及通信组件1116。
处理组件1102通常控制终端1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1102可以包括一个或多个处理器1120来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。
存储器1104被配置为存储各种类型的数据以支持在终端1100的操作。这些数据的示例包括用于在终端1100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1106为终端1100的各种组件提供电力。电源组件1106可以包括电源管理系统,一个或多个电源,及其他与为终端1100生成、管理和分配电力相关联的组件。
多媒体组件1108包括在所述终端1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当终端1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当终端1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。
I/O接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1114包括一个或多个传感器,用于为终端1100提供各个方面的状态评估。例如,传感器组件1114可以检测到终端1100的打开/关闭状态,组件的相对定位,例如所述组件为终端1100的显示器和小键盘,传感器组件1114还可以检测终端1100或终端1100一个组件的位置改变,用户与终端1100接触的存在或不存在,终端1100方位或加速/减速和终端1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1116被配置为便于终端1100和其他设备之间有线或无线方式的通信。终端1100可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1116还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1104,上述指令可由终端1100的处理器1120执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图11是根据一示例性实施例示出的一种用于数据处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由服务器1900的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行图1至图7一个或多个所示的数据处理方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:接收用户的当前输入内容;若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;输出所述第一推荐信息。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置、一种用于数据处理的装置、以及一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (35)
1.一种数据处理方法,其特征在于,包括:
依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段;
依据所述第二意图语言片段的片段特征,对所述第二意图语言片段进行筛选;
所述片段特征包括如下特征中的至少一种:出现频率、切分概率、是否带停用词和长度;
所述挖掘模板还包括:依据所述第一意图语言片段对应的搭配规律,得到挖掘模板;
所述依据第一意图语言片段,构建挖掘模板,包括:
从所述查询内容和/或所述推广内容中获取与所述第一意图语言片段相匹配的第一文本;
从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;
将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
2.根据权利要求1所述的方法,其特征在于,所述利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段,包括:
将查询内容和/或推广内容中的文本与所述挖掘模板中所述上下文字段的内容进行匹配,以得到所述查询内容和/或推广内容中包括的、与所述上下文字段的内容相匹配的第三文本;
按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系、以及所述第三文本,从所述查询内容和/或推广内容中获取所述意图语言片段字段对应的内容,作为第二意图语言片段。
3.根据权利要求1至2中任一所述的方法,其特征在于,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的排列方式。
4.根据权利要求1至2中任一所述的方法,其特征在于,所述方法还包括:
将预设的意图语言片段作为第一意图语言片段;和/或
从推广内容中提取第一意图语言片段;和/或
从所述第二意图语言片段中获取第一意图语言片段。
5.根据权利要求1至2中任一所述的方法,其特征在于,所述利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段,包括:
依据所述挖掘模板对于查询内容和/或推广内容的命中情况,对所述挖掘模板进行筛选;
利用筛选后的挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
6.一种数据处理方法,其特征在于,包括:
接收用户的当前输入内容;
若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
输出所述第一推荐信息;
判断所述当前输入内容是否包括与意图语言片段相匹配的内容,包括:分别确定所述当前输入内容所包括内容与所述意图语言片段对应的第三词向量和第四词向量,并计算第三词向量和第四词向量之间的相似度;
所述挖掘模板还包括:依据第一意图语言片段对应的搭配规律,得到挖掘模板;
所述挖掘模板采用以下方法构建:
从所述查询内容和/或所述推广内容中获取与所述第一意图语言片段相匹配的第一文本;
从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;
将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述当前输入内容包括与意图语言片段相匹配的内容、且所述当前输入内容对应的意图为第一意图,则依据所述意图语言片段和所述第一意图,确定第二推荐信息;
输出所述第二推荐信息。
8.根据权利要求7所述的方法,其特征在于,通过如下步骤确定所述当前输入内容对应的意图:
确定所述当前输入内容对应的第一特征;所述第一特征包括:所述用户的输入内容对应的特征、或者所述用户的输入内容对应的特征和所述意图语言片段对应的特征;所述输入内容包括:所述当前输入内容、或者所述当前输入内容和历史输入内容;
依据第一特征与第一意图之间的映射关系,确定所述第一特征对应的意图,作为所述当前输入内容对应的意图。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
确定所述意图语言片段在所述第一意图中的强度概率;
若所述强度概率超过概率阈值,则所述依据所述意图语言片段和所述第一意图,确定第二推荐信息。
10.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述当前输入内容对应的意图不为第二意图,则触发所述若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息。
11.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述当前输入内容对应的意图为第二意图,则结束所述方法对应的流程。
12.一种数据处理装置,其特征在于,包括:
模板构建模块,用于依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;以及
挖掘模块,用于利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段;
第二筛选模块,用于依据所述第二意图语言片段的片段特征,对所述第二意图语言片段进行筛选;
所述片段特征包括如下特征中的至少一种:出现频率、切分概率、是否带停用词和长度;
所述挖掘模板还包括:依据所述第一意图语言片段对应的搭配规律,得到挖掘模板;
所述模板构建模块包括:
第一文本获取子模块,用于从所述查询内容和/或所述推广内容中获取与所述第一意图语言片段相匹配的第一文本;
第二文本获取子模块,用于从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;以及
组合子模块,用于将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
13.根据权利要求12所述的装置,其特征在于,所述挖掘模块包括:
匹配子模块,用于将查询内容和/或推广内容中的文本与所述挖掘模板中所述上下文字段的内容进行匹配,以得到所述查询内容和/或推广内容中包括的、与所述上下文字段的内容相匹配的第三文本;以及
第二意图语言片段子模块,用于按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系、以及所述第三文本,从所述查询内容和/或推广内容中获取所述意图语言片段字段对应的内容,作为第二意图语言片段。
14.根据权利要求12至13中任一所述的装置,其特征在于,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的排列方式。
15.根据权利要求12至13中任一所述的装置,其特征在于,所述装置还包括:
第一获取模块,用于将预设的意图语言片段作为第一意图语言片段;和/或
第二获取模块,用于从推广内容中提取第一意图语言片段;和/或
第三获取模块,用于从所述第二意图语言片段中获取第一意图语言片段。
16.根据权利要求12至13中任一所述的装置,其特征在于,所述挖掘模块包括:
第一筛选子模块,用于依据所述挖掘模板对于查询内容和/或推广内容的命中情况,对所述挖掘模板进行筛选;
挖掘子模块,用于利用筛选后的挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
17.一种数据处理装置,其特征在于,包括:
接收模块,用于接收用户的当前输入内容;
第一推荐信息确定模块,用于若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;以及
第一输出模块,用于输出所述第一推荐信息;
判断所述当前输入内容是否包括与意图语言片段相匹配的内容,包括:分别确定所述当前输入内容所包括内容与所述意图语言片段对应的第三词向量和第四词向量,并计算第三词向量和第四词向量之间的相似度;
所述挖掘模板还包括:依据第一意图语言片段对应的搭配规律,得到挖掘模板;
所述挖掘模板由模板构建模块构建,所述模板构建模块包括:
第一文本获取子模块,用于从所述查询内容和/或所述推广内容中获取与所述第一意图语言片段相匹配的第一文本;
第二文本获取子模块,用于从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;以及
组合子模块,用于将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
第二推荐信息确定模块,用于若所述当前输入内容包括与意图语言片段相匹配的内容、且所述当前输入内容对应的意图为第一意图,则依据所述意图语言片段和所述第一意图,确定第二推荐信息;
第二推荐模块,用于输出所述第二推荐信息。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括:
第一特征确定模块,用于确定所述当前输入内容对应的第一特征;所述第一特征包括:所述用户的输入内容对应的特征、或者所述用户的输入内容对应的特征和所述意图语言片段对应的特征;所述输入内容包括:所述当前输入内容、或者所述当前输入内容和历史输入内容;
意图确定模块,用于依据第一特征与第一意图之间的映射关系,确定所述第一特征对应的意图,作为所述当前输入内容对应的意图。
20.根据权利要求18所述的装置,其特征在于,所述装置还包括:
强度概率确定模块,用于确定所述意图语言片段在所述第一意图中的强度概率;
第三推荐信息确定模块,用于若所述强度概率超过概率阈值,则依据所述意图语言片段和所述第一意图,确定第二推荐信息。
21.根据权利要求17所述的装置,其特征在于,所述装置还包括:
触发模块,用于若所述当前输入内容对应的意图不为第二意图,则触发所述第一推荐信息确定模块。
22.根据权利要求17所述的装置,其特征在于,所述装置还包括:
结束模块,用于若所述当前输入内容对应的意图为第二意图,则控制所述装置停止工作。
23.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据第一意图语言片段,构建挖掘模板;其中,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段;
依据所述第二意图语言片段的片段特征,对所述第二意图语言片段进行筛选;
所述片段特征包括如下特征中的至少一种:出现频率、切分概率、是否带停用词和长度;
所述挖掘模板还包括:依据所述第一意图语言片段对应的搭配规律,得到挖掘模板;
所述依据第一意图语言片段,构建挖掘模板,包括:
从所述查询内容和/或所述推广内容中获取与所述第一意图语言片段相匹配的第一文本;
从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;
将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
24.根据权利要求23所述的装置,其特征在于,所述利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段,包括:
将查询内容和/或推广内容中的文本与所述挖掘模板中所述上下文字段的内容进行匹配,以得到所述查询内容和/或推广内容中包括的、与所述上下文字段的内容相匹配的第三文本;
按照所述挖掘模板中所述上下文字段与所述意图语言片段字段之间的位置关系、以及所述第三文本,从所述查询内容和/或推广内容中获取所述意图语言片段字段对应的内容,作为第二意图语言片段。
25.根据权利要求23至24中任一所述的装置,其特征在于,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的排列方式。
26.根据权利要求23至24中任一所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将预设的意图语言片段作为第一意图语言片段;和/或
从推广内容中提取第一意图语言片段;和/或
从所述第二意图语言片段中获取第一意图语言片段。
27.根据权利要求23至24中任一所述的装置,其特征在于,所述利用所述挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段,包括:
依据所述挖掘模板对于查询内容和/或推广内容的命中情况,对所述挖掘模板进行筛选;
利用筛选后的挖掘模板,从查询内容和/或推广内容中挖掘第二意图语言片段。
28.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至5中一个或多个所述的数据处理方法。
29.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收用户的当前输入内容;
若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息;其中,所述意图语言片段为利用挖掘模板从查询内容和/或推广内容中挖掘得到,所述挖掘模板包括:至少一个意图语言片段字段和至少一个上下文字段对应的组合文本,所述组合文本中所述意图语言片段字段和所述上下文字段交替出现;
输出所述第一推荐信息;
判断所述当前输入内容是否包括与意图语言片段相匹配的内容,包括:分别确定所述当前输入内容所包括内容与所述意图语言片段对应的第三词向量和第四词向量,并计算第三词向量和第四词向量之间的相似度;
所述挖掘模板还包括:依据第一意图语言片段对应的搭配规律,得到挖掘模板;
所述挖掘模板采用以下方法构建:
从所述查询内容和/或所述推广内容中获取与所述第一意图语言片段相匹配的第一文本;
从所述查询内容和/或所述推广内容中获取与所述第一文本相邻的第二文本;
将所述第二文本作为上下文字段对应的内容,将所述第一文本对应的字段作为意图语言片段字段,并对所述意图语言片段字段和所述上下文字段对应的内容进行组合,以得到挖掘模板。
30.根据权利要求29所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
若所述当前输入内容包括与意图语言片段相匹配的内容、且所述当前输入内容对应的意图为第一意图,则依据所述意图语言片段和所述第一意图,确定第二推荐信息;
输出所述第二推荐信息。
31.根据权利要求30所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定所述当前输入内容对应的第一特征;所述第一特征包括:所述用户的输入内容对应的特征、或者所述用户的输入内容对应的特征和所述意图语言片段对应的特征;所述输入内容包括:所述当前输入内容、或者所述当前输入内容和历史输入内容;
依据第一特征与第一意图之间的映射关系,确定所述第一特征对应的意图,作为所述当前输入内容对应的意图。
32.根据权利要求30所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定所述意图语言片段在所述第一意图中的强度概率;
若所述强度概率超过概率阈值,则所述依据所述意图语言片段和所述第一意图,确定第二推荐信息。
33.根据权利要求29所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
若所述当前输入内容对应的意图不为第二意图,则触发所述若所述当前输入内容包括与意图语言片段相匹配的内容,则依据所述意图语言片段确定第一推荐信息。
34.根据权利要求29所述的装置,其特征在于,所述装置还包括:
若所述当前输入内容对应的意图为第二意图,则控制所述装置停止工作。
35.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求6至11中一个或多个所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028160.5A CN110110078B (zh) | 2018-01-11 | 2018-01-11 | 数据处理方法和装置、用于数据处理的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028160.5A CN110110078B (zh) | 2018-01-11 | 2018-01-11 | 数据处理方法和装置、用于数据处理的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110078A CN110110078A (zh) | 2019-08-09 |
CN110110078B true CN110110078B (zh) | 2024-04-30 |
Family
ID=67483021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810028160.5A Active CN110110078B (zh) | 2018-01-11 | 2018-01-11 | 数据处理方法和装置、用于数据处理的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110078B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532267A (zh) * | 2019-08-28 | 2019-12-03 | 北京明略软件系统有限公司 | 字段的确定方法、装置、存储介质及电子装置 |
CN112988845B (zh) * | 2021-04-01 | 2021-11-16 | 湖南机械之家信息科技有限公司 | 在大数据业务场景下的数据信息处理方法及信息服务平台 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936896A (zh) * | 2006-09-20 | 2007-03-28 | 网之易信息技术(北京)有限公司 | 一种基于搜索引擎的信息检索方法及检索系统 |
CN102194004A (zh) * | 2011-05-25 | 2011-09-21 | 福州瑞芯微电子有限公司 | 一种Android浏览器处理复杂文本的方法 |
CN102439596A (zh) * | 2009-05-22 | 2012-05-02 | 微软公司 | 从非结构化资源挖掘短语对 |
CN102866990A (zh) * | 2012-08-20 | 2013-01-09 | 北京搜狗信息服务有限公司 | 一种主题对话方法和装置 |
CN103116574A (zh) * | 2013-02-22 | 2013-05-22 | 电子科技大学 | 从自然语言文本挖掘领域过程本体的方法 |
CN103838837A (zh) * | 2014-02-25 | 2014-06-04 | 浙江大学 | 基于语义模板的遥感元数据集成方法 |
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN104008186A (zh) * | 2014-06-11 | 2014-08-27 | 北京京东尚科信息技术有限公司 | 从目标文本中确定关键词的方法和装置 |
CN104298429A (zh) * | 2014-09-25 | 2015-01-21 | 北京搜狗科技发展有限公司 | 一种基于输入的信息展示方法和输入法系统 |
CN105335398A (zh) * | 2014-07-18 | 2016-02-17 | 华为技术有限公司 | 一种服务推荐方法及终端 |
CN105677709A (zh) * | 2015-12-28 | 2016-06-15 | 北京搜狗科技发展有限公司 | 一种信息处理方法和装置、一种用于信息处理的装置 |
CN106610942A (zh) * | 2016-07-27 | 2017-05-03 | 四川用联信息技术有限公司 | 一种基于上下文窗口的词语语义相似度求解方法 |
CN106980664A (zh) * | 2017-03-21 | 2017-07-25 | 苏州大学 | 一种双语可比较语料挖掘方法及装置 |
CN107291685A (zh) * | 2016-04-13 | 2017-10-24 | 北京大学 | 语义识别方法和语义识别系统 |
CN107423440A (zh) * | 2017-08-04 | 2017-12-01 | 逸途(北京)科技有限公司 | 一种基于情感分析的问答上下文切换与强化选择方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9064006B2 (en) * | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US20140236570A1 (en) * | 2013-02-18 | 2014-08-21 | Microsoft Corporation | Exploiting the semantic web for unsupervised spoken language understanding |
US20140324908A1 (en) * | 2013-04-29 | 2014-10-30 | General Electric Company | Method and system for increasing accuracy and completeness of acquired data |
-
2018
- 2018-01-11 CN CN201810028160.5A patent/CN110110078B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936896A (zh) * | 2006-09-20 | 2007-03-28 | 网之易信息技术(北京)有限公司 | 一种基于搜索引擎的信息检索方法及检索系统 |
CN102439596A (zh) * | 2009-05-22 | 2012-05-02 | 微软公司 | 从非结构化资源挖掘短语对 |
CN102194004A (zh) * | 2011-05-25 | 2011-09-21 | 福州瑞芯微电子有限公司 | 一种Android浏览器处理复杂文本的方法 |
CN102866990A (zh) * | 2012-08-20 | 2013-01-09 | 北京搜狗信息服务有限公司 | 一种主题对话方法和装置 |
CN103116574A (zh) * | 2013-02-22 | 2013-05-22 | 电子科技大学 | 从自然语言文本挖掘领域过程本体的方法 |
CN103838837A (zh) * | 2014-02-25 | 2014-06-04 | 浙江大学 | 基于语义模板的遥感元数据集成方法 |
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN104008186A (zh) * | 2014-06-11 | 2014-08-27 | 北京京东尚科信息技术有限公司 | 从目标文本中确定关键词的方法和装置 |
CN105335398A (zh) * | 2014-07-18 | 2016-02-17 | 华为技术有限公司 | 一种服务推荐方法及终端 |
CN104298429A (zh) * | 2014-09-25 | 2015-01-21 | 北京搜狗科技发展有限公司 | 一种基于输入的信息展示方法和输入法系统 |
CN105677709A (zh) * | 2015-12-28 | 2016-06-15 | 北京搜狗科技发展有限公司 | 一种信息处理方法和装置、一种用于信息处理的装置 |
CN107291685A (zh) * | 2016-04-13 | 2017-10-24 | 北京大学 | 语义识别方法和语义识别系统 |
CN106610942A (zh) * | 2016-07-27 | 2017-05-03 | 四川用联信息技术有限公司 | 一种基于上下文窗口的词语语义相似度求解方法 |
CN106980664A (zh) * | 2017-03-21 | 2017-07-25 | 苏州大学 | 一种双语可比较语料挖掘方法及装置 |
CN107423440A (zh) * | 2017-08-04 | 2017-12-01 | 逸途(北京)科技有限公司 | 一种基于情感分析的问答上下文切换与强化选择方法 |
Non-Patent Citations (3)
Title |
---|
AnswerSeeker:基于互联网挖掘的智能问答系统;阴红志;张帆;丁鼎;赵斌;;计算机系统应用;20100115(01);8-19 * |
Understanding user intent on the web through interaction mining;Loredana Caruccio 等;ELSEVIER;20151231;230-236 * |
基于最大熵模型的越南语交叉歧义消解;熊明明;刘艳超;郭剑毅;余正涛;周兰江;陈秀琴;;中文信息学报;20170715(04);68-74 * |
Also Published As
Publication number | Publication date |
---|---|
CN110110078A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10402703B2 (en) | Training image-recognition systems using a joint embedding model on online social networks | |
US10664526B2 (en) | Suggested keywords for searching content on online social networks | |
US11308173B2 (en) | Searching for ideograms in an online social network | |
US10798043B2 (en) | Indicating live videos for trending topics on online social networks | |
US10645142B2 (en) | Video keyframes display on online social networks | |
US10467282B2 (en) | Suggesting tags on online social networks | |
US20190026285A1 (en) | Generating Cards in Response to User Actions on Online Social Networks | |
US20230306052A1 (en) | Method and system for entity extraction and disambiguation | |
US9589149B2 (en) | Combining personalization and privacy locally on devices | |
US10831847B2 (en) | Multimedia search using reshare text on online social networks | |
US10102273B2 (en) | Suggested queries for locating posts on online social networks | |
US20170316105A1 (en) | Blending by Query Classification on Online Social Networks | |
US20170249307A1 (en) | Modifying Structured Search Queries on Online Social Networks | |
US20180101540A1 (en) | Diversifying Media Search Results on Online Social Networks | |
US10083379B2 (en) | Training image-recognition systems based on search queries on online social networks | |
US20160203238A1 (en) | Suggested Keywords for Searching News-Related Content on Online Social Networks | |
US20160299882A1 (en) | Contextual speller models on online social networks | |
CN107368508B (zh) | 利用通讯工具服务的关键词检索方法及系统 | |
US20170097984A1 (en) | Method and system for generating a knowledge representation | |
CN110222256B (zh) | 一种信息推荐方法、装置和用于信息推荐的装置 | |
CN110598098A (zh) | 一种信息推荐方法、装置和用于信息推荐的装置 | |
CN110020106B (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
WO2016085519A1 (en) | Searching for offers and advertisements on online social networks | |
CN107515869B (zh) | 一种搜索方法和装置、一种用于搜索的装置 | |
CN110232181B (zh) | 评论分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |