CN113010768B - 一种数据处理方法、装置和用于数据处理的装置 - Google Patents
一种数据处理方法、装置和用于数据处理的装置 Download PDFInfo
- Publication number
- CN113010768B CN113010768B CN201911319992.3A CN201911319992A CN113010768B CN 113010768 B CN113010768 B CN 113010768B CN 201911319992 A CN201911319992 A CN 201911319992A CN 113010768 B CN113010768 B CN 113010768B
- Authority
- CN
- China
- Prior art keywords
- determining
- sentence
- label processing
- association
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 172
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 71
- 239000000463 material Substances 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 description 16
- 230000007613 environmental effect Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 12
- 230000002441 reversible effect Effects 0.000 description 11
- 238000002372 labelling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000049 pigment Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:确定上文对应的标签处理结果;对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;依据匹配成功的语句模板,确定所述上文对应的联想候选。本发明实施例可以提高联想候选的合理性和准确度,进而可以提高联想候选与输入意图之间的匹配度。
Description
技术领域
本发明涉及输入技术领域,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
背景技术
设备作为计算机系统与用户或其他设备通信的桥梁,是用户和计算机系统之间进行信息交互的主要装置之一,其可以方便用户在多种场景中输入信息。例如,用户可以在搜索引擎中输入关键词以搜索网页,也可以在即时通讯APP(应用程序,Application)中输入文字以与其他用户进行交流,还可以在文档APP中输入文字以编辑文档等等。
输入法联想功能是输入法程序的一种扩展功能,它的出现减少了用户主动输入的次数、按键的次数,并增加了输入法的智能性。该输入法的实现过程是首先获取用户输入的上文,并根据该上文查询N元模型(N-gram)等预设模型来获取联想候选。例如,若上文为“搜狗”,则联想候选可以为“输入法”、“浏览器”、“搜索”等。
发明人在实施本发明实施例的过程中发现,目前的N元模型通常难以感知过长的上文,联想结果常常仅仅与较短的上文的相关性比较强,因此得到的联想候选往往无法准确地反映输入意图。
例如,上文为“淘汰这首歌,陈奕迅唱的不好听,周杰伦唱的”时,由于目前的N元模型通常利用较短的上文“周杰伦唱的”或者“唱的”,难以根据更远的上文获知输入意图为“评价周杰伦的唱功”,因此仅仅能给出“告白气球”、“歌”等与输入意图不匹配的联想候选。
发明内容
本发明实施例提供一种数据处理方法、装置和用于数据处理的装置,可以提高联想候选的合理性和准确度,进而可以提高联想候选与输入意图之间的匹配度。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
确定上文对应的标签处理结果;
对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;
依据匹配成功的语句模板,确定所述上文对应的联想候选。
另一方面,本发明实施例公开了一种数据处理装置,包括:
标签处理结果确定模块,用于确定上文对应的标签处理结果;
匹配模块,用于对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;以及
联想候选确定模块,用于依据匹配成功的语句模板,确定所述上文对应的联想候选。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定上文对应的标签处理结果;
对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;
依据匹配成功的语句模板,确定所述上文对应的联想候选。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例中标签处理可用于确定上文或语料的语句结构。对语料进行标签处理,可以将语料包括的完整表达抽象为对应的语句模板。
本发明实施例对上文进行标签处理,可以将上文抽象为标签处理结果,并将上述标签处理结果与上述语句模板进行匹配,由此可以在语句结构层面进行匹配;进一步,依据匹配成功的语句模板,确定上述上文对应的联想候选,由于可以依据匹配成功的语句模板包括的完整表达,确定上文对应的联想候选,因此可以提高联想候选的合理性和准确度,进而可以提高联想候选与输入意图之间的匹配度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种数据处理方法的应用环境的示意;
图2是本发明的一种数据处理方法实施例一的步骤流程图;
图3是本发明的一种数据处理方法实施例二的步骤流程图;
图4是本发明的一种数据处理方法实施例三的步骤流程图;
图5是本发明的一种数据处理方法实施例四的步骤流程图;
图6是本发明的一种数据处理装置实施例的结构框图;
图7是本发明的一种用于数据处理的装置800的框图;及
图8是本发明的一些实施例中服务端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据处理方案,该方案可以确定上文对应的标签处理结果;对上述标签处理结果与语句模板进行匹配;其中,上述语句模板为对语料进行标签处理得到;上述标签处理用于将字词替换为对应的标签;依据匹配成功的语句模板,确定上述上文对应的联想候选。
本发明实施例中,上文可以指输入光标之前的部分。根据一种实施例,该上文可以包括:最近一次或者最近多次的上屏内容。根据另一种实施例,该上文可以包括:在通信场景下,通信对端发送的通信内容。例如,在即时通讯场景下,用户A接收到用户B发送的通信内容“淘汰这首歌,陈奕迅唱的不好听”后,点击输入框进行输入,则输入框中可以出现输入光标,由于通信内容在通讯窗口中位于输入光标之前,故可以将该通信内容作为上文。可以理解,本发明实施例对于具体的上文不加以限制。
本发明实施例中,标签处理可用于确定上文或语料的语句结构。对语料进行标签处理,可以将语料包括的完整表达抽象为对应的语句模板。
本发明实施例对上文进行标签处理,可以将上文抽象为标签处理结果,并将上述标签处理结果与上述语句模板进行匹配,由此可以在语句结构层面进行匹配;进一步,依据匹配成功的语句模板,确定上述上文对应的联想候选,由于可以依据匹配成功的语句模板包括的完整表达,确定上文对应的联想候选,因此可以提高联想候选的合理性和准确度,进而可以提高联想候选与输入意图之间的匹配度。
在本发明的一种应用示例中,假设上文A为“淘汰这首歌,陈奕迅唱的不好听,周杰伦唱的”,则可以确定上文A对应的标签处理结果:“<歌手>唱的不好听,<歌手>唱的”,假设依据语料得到的语句模板A包括:“<歌手>唱的不好听,<歌手>唱的好听”,则可以依据语句模板A采用的完整表达,确定上文A对应的联想候选:“好听”。
或者,可以确定上文A对应的标签处理结果:“<人名><动词><反向形容词>,<人名><动词>”,假设依据语料得到的语句模板B包括:“<人名><动词><反向形容词>,<人名><动词><正向形容词>”,则可以依据语句模板B采用的完整表达,确定上文A对应的联想候选与“正向形容词”相关,例如,上文A对应的联想候选可以为“好听”、“好”、“动听”等。
本发明实施例可应用于键盘符号、语音、手写等各种输入方式的输入法程序,即用户可以通过编码字符串(也即本发明实施例中的输入串)进行文字输入。在输入法领域,对于例如中文、日文、韩文、或者其它语言的输入法程序,通常可以把用户输入的输入串转换成相应语言的候选项。以下主要以中文为例进行说明,日文、韩文等其它语言相互参照即可。可以理解,所述中文输入法可以包括但不限于全拼、简拼、笔画、五笔等,本发明实施例对于某种语言对应的具体输入法程序不加以限制。
本发明实施例提供的数据处理方法可应用于图1所示的应用环境中,如图1所示,客户端100与服务端200位于有线或无线网络中,通过该有线或无线网络,客户端100与服务端200进行数据交互。
可选地,客户端100可以运行在终端上,上述终端具体包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。客户端100可以对应于网站、或者APP(应用程序,Application)。
在实际应用中,对于键盘符号的输入方式,用户可以通过实体键盘、或者虚拟键盘等输入上述输入串。例如,对于具有触摸屏的终端,其可以在输入界面中设置虚拟键盘,以使用过通过触发上述虚拟键盘包括的虚拟按键进行输入串的输入。可选地,上述虚拟键盘的例子可以包括:9键键盘和26键键盘等。并且,可以理解,上述输入界面中除了设置有字母对应的虚拟按键之外,还可以设置有符号按键、数字按键、例如中英切换按键的功能按键,或者,还可以设置有工具栏按键等,可以理解,本发明实施例对于输入界面所包含的具体按键不加以限制。
根据一些实施例,上述输入串可以包括但不限于:用户通过按键所输入的一个按键符号或多个按键符号的组合。所述按键符号具体可以包括:拼音、笔画、假名等。
本发明实施例中,候选可用于表示输入法程序提供的待被用户选择的一个或多个字符。候选可以与上文相应,或者,候选可以与输入串相应,或者,候选可以与输入串和上文相应。候选可以为中文字符、英文字符、日文字符等语言的字符,候选也可以为颜文字、图片等形式的符号组合。其中,所述颜文字包括但不限于线条、符号、文字所组成的图画,例如,所述颜文字的例子可以包括:“:P”、“:-o”、“:-)”等。
方法实施例一
参照图2,示出了本发明的一种数据处理方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤201、获取语料;
步骤202、对语料进行标签处理;
步骤203、依据语料对应的标签处理结果,确定语句模板。
图2所示实施例的至少一个步骤可由服务端或客户端执行,当然本发明实施例对于各个步骤的具体执行主体不加以限制。
图2用于对语料进行标签处理,上述标签处理用于确定语料的语句结构,由此可以将语料抽象为对应的语句模板。
步骤201中,语料可以包括:互联网语料、用户的语聊语料、用户的输入语料等,可以理解,本发明实施例对于具体的语料不加以限制。
本发明实施例中,语料中可以包括完整的表达。一个单位的语料可以包括:一个句子、或者多个句子。当然,本发明实施例对于具体的语料不加以限制。
步骤202中,对语料进行标签处理,可用于确定语料对应的语句结构。
可选地,上述对语料进行标签处理,具体包括:将语料中的字词替换为对应的标签。
标签的类型可由本领域技术人员根据实际应用需求确定。可选地,标签的类型可以包括:词性、和/或、实体词、和/或、泛化词。
本发明实施例中,实体是一个具体事物或概念。实体一般会划分类型,例如人物类实体、电影类实体、动物类实体、历史类实体等。同一个实体可以对应多个实体实例,实体实例可以是在网络(或其它媒介)中对一个实体的描述性页面(内容),例如百科的页面中即包含实体对应的实体实例。
可选地,实体可以包括:命名实体(named entity),命名实体可以指人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的命名实体还可以包括:书名、歌曲名、影视剧名、产品名、品牌名、数字、日期、货币、地址等等。
可选地,所述实体类别可以包括如下类别中的至少一种:人物、地点、水果、蔬菜、动物、植物、建筑物、衣物、食物、药物、交通工具、家具、乐器、电器、以及自然现象。
在本发明的一种实施例中,可以采用NER(命名实体识别,Named EntityRecognition)方法,确定语料中的实体词。例如,将语料中的“周杰伦”识别为“歌手”,将语料中的“七里香”识别为“歌名”等。
根据一种实施例,NER方法可以包括:基于词库的方法。基于词库的方法可以根据词组出现的频率对高频词构建实体库,对于可以在实体库中检索到的词直接将其识别为实体。其中,词组可以指两个或更多词的组合。在实际应用中,可以从互联网抓取实体相关数据,并对实体相关数据进行分析,以得到对应的实体词,并将该实体词存储至实体库,本发明实施例对于具体的实体词及其获取方式不加以限制。
根据另一种实施例,NER方法可以包括:基于规则的方法。基于规则的方法可以根据词组的组成规则,将请求中满足相应规则的词组标注为实体。
根据再一种实施例,NER方法可以包括:基于统计学习的方法。基于统计学习的方法将命名实体识别看作一个分类问题,采用类似SVM(支持向量机,Support VectorMachine)、贝叶斯等分类方法;或者,将命名实体识别看作一个序列标注问题,采用HMM(隐马尔科夫模型,Hidden Markov Model)、最大熵模型(Maximum Entropy Model)、CRF(条件随机场,conditional random field algorithm)、LSTM(长短期记忆网络,Long Short-Term Memory)模型等序列标注模型。
泛化可以指将具体的、个别的扩大为一般的。数据中通常包含原始概念层的细节信息。本发明实施例的泛化词可以为对字词进行泛化处理后得到的词。泛化处理可以将字词从较低的概念层抽象到较高的概念层,用较高层的概念来代替较低层次的概念。例如,“北京”对应的泛化词为“地名”,“1989年”对应的泛化词为“时间”或“年份”,“15612341234”对应的泛化词为“电话号码”等。
词性可以指以词的特点作为划分词类的根据。词性可以包括:名词、动词、形容词等。形容词可以包括:正向形容词或反向形容词。
在步骤202对语料进行标签处理后,语料中可以包括:标签类型的第一内容,可选地,语料中还可以包括:字词类型的第二内容。
可以将经过标签处理的语料可以作为语句模板,或者,对经过标签处理的语料进行进一步处理后得到语句模板。
语句模板的例子可以包括:
<歌手>唱的不好听,<歌手>唱的好听”;
<人名><动词><反向形容词>,<人名><动词><正向形容词>;
<歌曲>是<歌手>的新歌;
<歌曲>是<歌手>翻唱的;
<歌曲>的演唱者是<歌手>;
<国家>队的队长是<足球运动员>;
我家的地址是<地名>。
可以理解,本发明实施例可以针对不同的语料得到不同的语句模板,本发明实施例的语句模板可以具有多样性,本发明实施例对于具体的语句模板不加以限制。
方法实施例二
参照图3,示出了本发明的一种数据处理方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤301、确定上文对应的标签处理结果;
步骤302、对上述标签处理结果与语句模板进行匹配;其中,上述语句模板为对语料进行标签处理得到;上述标签处理可用于确定上文或语料的语句结构;
步骤303、依据匹配成功的语句模板,确定上述上文对应的联想候选。
图3所示实施例的至少一个步骤可由服务端或客户端执行,当然本发明实施例对于各个步骤的具体执行主体不加以限制。
图3用于对上文进行抽象后,将抽象得到的标签处理结果与语句模板进行匹配,以利用语句模板的完整表达和语句结构,确定与输入意图相匹配的联想候选,进而可以提高联想候选与输入意图之间的匹配度。
步骤301中,确定上文对应的标签处理结果,用于将上文抽象为对应的语句结构。
可选地,上述确定上文对应的标签处理结果,具体包括:将上文中的字词替换为对应的标签,以得到对应的标签处理结果。
可选地,所述标签处理用于将字词替换为对应的标签;
所述标签的类型具体包括:词性、和/或、实体词、和/或、泛化词。
假设上文A为“淘汰这首歌,陈奕迅唱的不好听,周杰伦唱的”,则在标签类型为实体词的情况下,可以确定上文A对应的标签处理结果:“<歌手>唱的不好听,<歌手>唱的”。或者,在标签类型为词性的情况下,可以确定上文A对应的标签处理结果:“<人名><动词><反向形容词>,<人名><动词>”。
步骤302中,可以通过模板库维护多个语句模板。对上述标签处理结果与语句模板进行匹配,具体包括:将上述标签处理结果与模板库中的单个语句模板分别进行匹配。
本发明实施例中,可选的是,上述对所述标签处理结果与语句模板进行匹配,具体包括:对所述标签处理结果与语句模板的前缀进行匹配。前缀可以指语句模板中位于前面的部分,由于输入过程中的表达顺序通常为从前到后的顺序,故可以对上文对应的标签处理结果与语句模板的前缀进行匹配。
在对所述标签处理结果与语句模板进行匹配的过程中,可以将语句结构中的部分和部分对应的出现顺序进行匹配,以判断标签处理结果是否与语句模板匹配。
本发明实施例中,可选的是,上文对应的标签处理结果的全部与语句模板的前缀相匹配。例如,上文G为“蔡依林和周杰伦唱的”,该上文G对应的标签处理结果为“<歌手>和<歌手>唱的”,假设语句模板G2为“<歌手>和<歌手>唱的<歌曲>”,则上文G对应的标签处理结果的全部与语句模板G2的前缀相匹配。
假设语句模板G1为“<歌手>唱的<歌曲>”,则上文G对应的标签处理结果的部分与语句模板G1的前缀相匹配。
步骤303中,可以利用语句模板的完整表达和语句结构,确定与输入意图相匹配的联想候选,进而可以提高联想候选与输入意图之间的匹配度。
可选地,上述确定所述上文对应的联想候选,具体包括:依据匹配成功的语句模板的后缀,确定所述上文对应的联想候选。后缀可以指语句模板中位于后面的部分。语句模板可以包括:前缀和后缀。前缀与上文对应的标签处理结果相匹配,故可以依据后缀预测联想候选。
可选地,可以依据后缀的类型,确定上文对应的联想候选。相应地,上述确定所述上文对应的联想候选,具体包括:
若匹配成功的语句模板的后缀的类型为字词类型,则将所述后缀作为所述上文对应的联想候选;或者
若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
需要说明的是,若后缀包括较长的内容(如较多的词),则可以依据距离前缀最近的若干个词,确定上文对应的联想候选。
根据一种实施例,若匹配成功的语句模板的后缀的类型为字词类型,则可以直接将后缀作为上文对应的联想候选。
本发明实施例中,可选的是,所述联想候选的类型包括:正向形容词类型、和/或、反向形容词类型。
例如,假设上文A为“淘汰这首歌,陈奕迅唱的不好听,周杰伦唱的”,则可以确定上文A对应的标签处理结果:“<歌手>唱的不好听,<歌手>唱的”,假设依据语料得到的语句模板A包括:“<歌手>唱的不好听,<歌手>唱的好听”,则可以将语句模板A的后缀“好听”,作为上文A对应的联想候选。“好听”可以作为正向形容词类型的联想候选的示例,“不好听”可以作为反向形容词类型的联想候选的示例。
又如,假设上文C为“七里香是周杰伦”,将上文C中的词替换为标签,得到:“<歌曲>是<歌手>”,通过语句模板C“<歌曲>是<歌手>唱的”,可以查到联想候选:“唱的”。
或者,假设上文C为“七里香是周杰伦”,将上文C中的词替换为标签,得到:“<歌曲>是<歌曲作者>”,通过语句模板D“<歌曲>是<歌曲作者>作曲或作词”,可以得到联想候选:“作曲”、“作词”等。
再如,上文E为“虽然我今天去了,”,将上文E的词替换为标签,得到:“虽然<句子>,”,通过语句模板F“虽然<句子>,但是”,可以得到联想候选“但是”等。
根据另一种实施例,若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
例如,匹配成功的语句模板B为“<歌手>唱的<歌曲>”,上文B为“周杰伦唱的”,上文B对应的标签处理结果为“<歌手>唱的”,语句模板B的后缀为标签<歌曲>,因此,可以依据标签<歌曲>查找得到上文B对应的联想候选。
在依据所述标签类型查找得到所述上文对应的联想候选的过程中,可以依据上文的信息。例如,可以从上文中提取关键词,依据关键词和标签类型,查找得到上文对应的联想候选。关键词可以包括:实体词等。例如,可以将上文B中的<歌手>用于联想候选的查找。
例如,上文D为“头号玩家的导演是”,将上文D的词替换为标签,得到:“<电影>的导演是”,通过语句模板E“<电影>的导演是<人名>”及相关的资源,可以得到联想候选:“斯皮尔伯格”。
本发明实施例中,可以基于领域对应的数据库查询得到联想候选,由此可以得到实时性的数据。领域可以表征特定的范围或区域。可选地,领域对应的数据库可由服务商提供,例如,数据库的类型可以包括:天气数据库、音乐数据库、影视数据库等。
本发明实施例中,可以将步骤303得到的联想候选进行输出,以向用户提供上述联想候选。
综上,本发明实施例的数据处理方法,标签处理可用于确定上文或语料的语句结构。对语料进行标签处理,可以将语料包括的完整表达抽象为对应的语句模板。
本发明实施例对上文进行标签处理,可以将上文抽象为标签处理结果,并将上述标签处理结果与上述语句模板进行匹配,由此可以在语句结构层面进行匹配;进一步,依据匹配成功的语句模板,确定上述上文对应的联想候选,由于可以依据匹配成功的语句模板包括的完整表达,确定上文对应的联想候选,因此可以提高联想候选的合理性和准确度,进而可以提高联想候选与输入意图之间的匹配度。
方法实施例三
参照图4,示出了本发明的一种数据处理方法实施例三的步骤流程图,具体可以包括如下步骤:
步骤401、确定上文对应的标签处理结果;
步骤402、对上述标签处理结果与语句模板进行匹配;其中,上述语句模板为对语料进行标签处理得到;上述标签处理可用于确定上文或语料的语句结构;
步骤403、依据匹配成功的语句模板,确定上述上文对应的联想候选;
相对于图3所示方法实施例二,本实施例的方法还可以包括:
步骤404、依据筛选特征,对上述上文对应的联想候选进行筛选;
所述筛选特征具体包括如下特征中的至少一种:
所述上文中的关键词、以及所述上文对应的输入环境特征。
例如,匹配成功的语句模板B为“<歌手>唱的<歌曲>”,上文B为“周杰伦唱的”,上文B对应的标签处理结果为“<歌手>唱的”,语句模板B的后缀为标签<歌曲>,因此,可以依据标签<歌曲>查找得到上文B对应的联想候选。此种情况下,可以依据上文中的关键词<歌手>,对上文对应的联想候选进行筛选,以得到特定的<歌手>对应的歌曲。
输入环境特征可用于表征用户输入时终端所处的环境信息。输入环境特征可以在一定程度上反映用户的输入意图,因此,本发明实施例在确定输入意图的过程中采用输入环境特征,可以提高输入意图的精确度。
在实际应用中,上述输入环境特征可以包括各种类型的特征。可选地,上述输入环境特征可以包括:时间环境特征、位置环境特征、气候环境特征、应用程序环境特征和页面环境特征中的至少一种。
即使同一终端,其所处的环境信息也很有可能是变化的,时间环境特征就是一个典型的例子。因此,本发明实施例的输入环境特征可以具有实时性,在输入过程中,可以实时获取输入串对应的输入环境特征。
针对一个输入串,其接收时间可以作为对应的时间环境特征。
依据其IP(网络之间互连的协议,Internet Protocol)地址、终端的GPS(全球定位系统,Global Positioning System)或移动通信网络获得的位置信息可以作为对应的位置环境特征。
输入法程序作为寄宿程序,可以寄宿于任意的宿主程序,且可被宿主程序调起,以实现宿主程序中的输入,例如,用户可以在宿主程序中键入输入串,并选择输入串对应的候选项上屏。本发明实施例中,输入串对应的应用程序环境特征可以为输入法程序对应的宿主程序的信息。
可选地,可以依据输入法程序正在服务的当前对象的识别特征,确定输入串对应的应用程序环境特征,例如,输入法程序在运行中,调用GetModuleFilename发现程序路径名“C:ProgramFilesMicrosoftOfficeOFFICE11WINWORD.EXE”,即可确定对应的应用程序环境特征为“WinWord.exe”,也即输入串是在“word”中输入的,当然本发明实施例对于输入串对应的应用程序环境特征的具体获取方式不加以限制。
本发明实施例中,所述应用程序环境特征可以包括:应用程序标识和/或应用程序类别。例如,“word”为应用程序标识,“word”对应的应用程序类别为办公类别等。可以理解,本领域技术人员可以根据实际应用需求,将应用程序划分到对应的应用程序类别,例如,应用程序类别的例子可以包括但不限于:即时通讯类别、文档类别、搜索类别、网页类别、购物类别、旅游类别等等。
页面环境特征可用于表征应用程序或者网站提供的页面环境,可选地,上述页面环境可以包括但不限于:即时通讯页面环境、文档页面环境、邮件页面环境、密码输入页面环境、游戏页面环境、搜索页面环境、旅游页面环境、购物页面环境、社交页面环境、影视页面环境、阅读页面环境等。
当然,除了时间环境特征、位置环境特征、应用程序环境特征和页面环境特征外,本发明实施例的输入环境特征还可以包括其它环境特征,例如,气压、海拔、温度、湿度等物理环境特征等。其中,可以理解,本发明实施例对于具体的输入环境特征不加以限制。
例如,在上文F为“今天的天气怎么样”的情况下,可以依据上文F得到联想候选“天气状况”;进一步,可以依据位置环境特征和时间环境特征,对联想候选进行筛选,以提高联想候选的准确度。
综上,本发明实施例的数据处理方法,依据筛选特征,对上文对应的联想候选进行筛选,可以提高联想候选的准确度。
方法实施例四
参照图5,示出了本发明的一种数据处理方法实施例四的步骤流程图,具体可以包括如下步骤:
步骤501、确定上文对应的标签处理结果;
步骤502、对上述标签处理结果与语句模板进行匹配;其中,上述语句模板为对语料进行标签处理得到;上述标签处理可用于确定上文或语料的语句结构;
步骤503、依据匹配成功的语句模板,确定上述上文对应的联想候选;
相对于图3所示方法实施例二,本实施例的方法还可以包括:
步骤504、依据排序特征,对所述上文对应的联想候选进行排序;
所述排序特征具体包括如下特征中的至少一种:
所述上文的长度信息、以及联想候选对应语句模板的频率信息。
本发明实施例依据排序特征,对上文对应的联想候选进行排序,可以按照质量从优到劣的顺序,向用户提供联想候选,由此可以提高输入效率。
上文的长度信息可以表征上文所包括字符的数量、或者上文所包括字词的数量。通常,上文的长度信息越长,则联想候选考虑的上文信息越多,进而联想候选的质量和准确度越高,故可以将其排在靠前的位置。
本发明实施例中,对于相同的上文而言,不同的语句模板可能匹配到不同的上文长度。
例如,上文G为“蔡依林和周杰伦唱的”,该上文G可能匹配到两个语句模板,其中,语句模板G1为“<歌手>唱的<歌曲>”,语句模板G2为“<歌手>和<歌手>唱的<歌曲>”,由于语句模板G2匹配到的上文长度大于语句模板G1匹配到的上文长度,因此,基于语句模板G2得到的联想候选可以优于基于语句模板G1得到的联想候选。
联想候选对应语句模板的频率信息可以表征语句模板的热度。通常联想候选对应语句模板的频率信息越高,则联想候选对应语句模板越优。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图6,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:
标签处理结果确定模块601,用于确定上文对应的标签处理结果;
匹配模块602,用于对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;以及
联想候选确定模块603,用于依据匹配成功的语句模板,确定所述上文对应的联想候选。
可选地,标签处理结果确定模块60可以包括:
替换模块,用于将上文中的字词替换为对应的标签,以得到对应的标签处理结果。
可选地,所述标签处理用于将字词替换为对应的标签;
所述标签的类型可以包括:
词性、和/或、实体词、和/或、泛化词。
可选地,匹配模块602,具体用于对所述标签处理结果与语句模板的前缀进行匹配。
可选地,联想候选确定模块603可以包括:
第一确定模块,用于依据匹配成功的语句模板的后缀,确定所述上文对应的联想候选。
可选地,联想候选确定模块603可以包括:
第二确定模块,用于若匹配成功的语句模板的后缀的类型为字词类型,则将所述后缀作为所述上文对应的联想候选;或者
第三确定模块,用于若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
可选地,所述装置还可以包括:
筛选模块,用于依据筛选特征,对所述上文对应的联想候选进行筛选;
所述筛选特征可以包括如下特征中的至少一种:
所述上文中的关键词、以及所述上文对应的输入环境特征。
可选地,所述装置还可以包括:
排序模块,用于依据排序特征,对所述上文对应的联想候选进行排序;
所述排序特征可以包括如下特征中的至少一种:
所述上文的长度信息、以及联想候选对应语句模板的频率信息。
可选地,所述联想候选的类型可以包括:正向形容词类型、和/或、反向形容词类型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:确定上文对应的标签处理结果;对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;依据匹配成功的语句模板,确定所述上文对应的联想候选。
图7是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音输入模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID,Radio Frequency Identification)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图2或图3所示的数据处理方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:确定上文对应的标签处理结果;对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;依据匹配成功的语句模板,确定所述上文对应的联想候选。
本发明实施例公开了A1、一种数据处理方法,所述方法包括:
确定上文对应的标签处理结果;
对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;
依据匹配成功的语句模板,确定所述上文对应的联想候选。
A2、根据A1所述的方法,所述确定上文对应的标签处理结果,包括:
将上文中的字词替换为对应的标签,以得到对应的标签处理结果。
A3、根据A1或A2所述的方法,所述标签处理用于将字词替换为对应的标签;
所述标签的类型包括:
词性、和/或、实体词、和/或、泛化词。
A4、根据A1或A2所述的方法,所述对所述标签处理结果与语句模板进行匹配,包括:
对所述标签处理结果与语句模板的前缀进行匹配。
A5、根据A1或A2所述的方法,所述确定所述上文对应的联想候选,包括:
依据匹配成功的语句模板的后缀,确定所述上文对应的联想候选。
A6、根据A1或A2所述的方法,所述确定所述上文对应的联想候选,包括:
若匹配成功的语句模板的后缀的类型为字词类型,则将所述后缀作为所述上文对应的联想候选;或者
若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
A7、根据A1或A2所述的方法,所述方法还包括:
依据筛选特征,对所述上文对应的联想候选进行筛选;
所述筛选特征包括如下特征中的至少一种:
所述上文中的关键词、以及所述上文对应的输入环境特征。
A8、根据A1或A2所述的方法,所述方法还包括:
依据排序特征,对所述上文对应的联想候选进行排序;
所述排序特征包括如下特征中的至少一种:
所述上文的长度信息、以及联想候选对应语句模板的频率信息。
A9、根据A1或A2所述的方法,所述联想候选的类型包括:正向形容词类型、和/或、反向形容词类型。
本发明实施例公开了B10、一种数据处理装置,包括:
标签处理结果确定模块,用于确定上文对应的标签处理结果;
匹配模块,用于对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;以及
联想候选确定模块,用于依据匹配成功的语句模板,确定所述上文对应的联想候选。
B11、根据B10所述的装置,所述标签处理结果确定模块包括:
替换模块,用于将上文中的字词替换为对应的标签,以得到对应的标签处理结果。
B12、根据B10或B11所述的装置,所述标签处理用于将字词替换为对应的标签;
所述标签的类型包括:
词性、和/或、实体词、和/或、泛化词。
B13、根据B10或B11所述的装置,所述匹配模块,具体用于对所述标签处理结果与语句模板的前缀进行匹配。
B14、根据B10或B11所述的装置,所述联想候选确定模块包括:
第一确定模块,用于依据匹配成功的语句模板的后缀,确定所述上文对应的联想候选。
B15、根据B10或B11所述的装置,所述联想候选确定模块包括:
第二确定模块,用于若匹配成功的语句模板的后缀的类型为字词类型,则将所述后缀作为所述上文对应的联想候选;或者
第三确定模块,用于若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
B16、根据B10或B11所述的装置,所述装置还包括:
筛选模块,用于依据筛选特征,对所述上文对应的联想候选进行筛选;
所述筛选特征包括如下特征中的至少一种:
所述上文中的关键词、以及所述上文对应的输入环境特征。
B17、根据B10或B11所述的装置,所述装置还包括:
排序模块,用于依据排序特征,对所述上文对应的联想候选进行排序;
所述排序特征包括如下特征中的至少一种:
所述上文的长度信息、以及联想候选对应语句模板的频率信息。
B18、根据B10或B11所述的装置,所述联想候选的类型包括:正向形容词类型、和/或、反向形容词类型。
本发明实施例公开了C19、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定上文对应的标签处理结果;
对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;
依据匹配成功的语句模板,确定所述上文对应的联想候选。
C20、根据C19所述的装置,所述确定上文对应的标签处理结果,包括:
将上文中的字词替换为对应的标签,以得到对应的标签处理结果。
C21、根据C19或C20所述的装置,所述标签处理用于将字词替换为对应的标签;
所述标签的类型包括:
词性、和/或、实体词、和/或、泛化词。
C22、根据C19或C20所述的装置,所述对所述标签处理结果与语句模板进行匹配,包括:
对所述标签处理结果与语句模板的前缀进行匹配。
C23、根据C19或C20所述的装置,所述确定所述上文对应的联想候选,包括:
依据匹配成功的语句模板的后缀,确定所述上文对应的联想候选。
C24、根据C19或C20所述的装置,所述确定所述上文对应的联想候选,包括:
若匹配成功的语句模板的后缀的类型为字词类型,则将所述后缀作为所述上文对应的联想候选;或者
若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
C25、根据C19或C20所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据筛选特征,对所述上文对应的联想候选进行筛选;
所述筛选特征包括如下特征中的至少一种:
所述上文中的关键词、以及所述上文对应的输入环境特征。
C26、根据C19或C20所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据排序特征,对所述上文对应的联想候选进行排序;
所述排序特征包括如下特征中的至少一种:
所述上文的长度信息、以及联想候选对应语句模板的频率信息。
C27、根据C19或C20所述的装置,所述联想候选的类型包括:正向形容词类型、和/或、反向形容词类型。
本发明实施例公开了D28、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A9中一个或多个所述的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种数据处理方法,其特征在于,所述方法包括:
确定上文对应的标签处理结果;
对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;
依据匹配成功的语句模板,确定所述上文对应的联想候选;
所述确定所述上文对应的联想候选,包括:
若匹配成功的语句模板的后缀的类型为字词类型,则将所述后缀作为所述上文对应的联想候选;或者
若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
2.根据权利要求1所述的方法,其特征在于,所述确定上文对应的标签处理结果,包括:
将上文中的字词替换为对应的标签,以得到对应的标签处理结果。
3.根据权利要求1或2所述的方法,其特征在于,所述标签处理用于将字词替换为对应的标签;
所述标签的类型包括:
词性、和/或、实体词、和/或、泛化词。
4.根据权利要求1或2所述的方法,其特征在于,所述对所述标签处理结果与语句模板进行匹配,包括:
对所述标签处理结果与语句模板的前缀进行匹配。
5.根据权利要求1或2所述的方法,其特征在于,所述确定所述上文对应的联想候选,包括:
依据匹配成功的语句模板的后缀,确定所述上文对应的联想候选。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
依据筛选特征,对所述上文对应的联想候选进行筛选;
所述筛选特征包括如下特征中的至少一种:
所述上文中的关键词、以及所述上文对应的输入环境特征。
7.一种数据处理装置,其特征在于,包括:
标签处理结果确定模块,用于确定上文对应的标签处理结果;
匹配模块,用于对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;以及
联想候选确定模块,用于依据匹配成功的语句模板,确定所述上文对应的联想候选;
所述联想候选确定模块还包括:
第二确定模块,用于若匹配成功的语句模板的后缀的类型为字词类型,则将所述后缀作为所述上文对应的联想候选;或者
第三确定模块,用于若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
8.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定上文对应的标签处理结果;
对所述标签处理结果与语句模板进行匹配;其中,所述语句模板为对语料进行标签处理得到;所述标签处理用于确定上文或语料的语句结构;
依据匹配成功的语句模板,确定所述上文对应的联想候选;
所述确定所述上文对应的联想候选,包括:
若匹配成功的语句模板的后缀的类型为字词类型,则将所述后缀作为所述上文对应的联想候选;或者
若匹配成功的语句模板的后缀的类型为标签类型,则依据所述标签类型查找得到所述上文对应的联想候选。
9.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至6中一个或多个所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911319992.3A CN113010768B (zh) | 2019-12-19 | 2019-12-19 | 一种数据处理方法、装置和用于数据处理的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911319992.3A CN113010768B (zh) | 2019-12-19 | 2019-12-19 | 一种数据处理方法、装置和用于数据处理的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010768A CN113010768A (zh) | 2021-06-22 |
CN113010768B true CN113010768B (zh) | 2024-03-19 |
Family
ID=76381674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911319992.3A Active CN113010768B (zh) | 2019-12-19 | 2019-12-19 | 一种数据处理方法、装置和用于数据处理的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010768B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005301699A (ja) * | 2004-04-12 | 2005-10-27 | Sony Ericsson Mobilecommunications Japan Inc | 文章入力装置、方法、及びプログラム、並びに携帯端末装置 |
JP2011128958A (ja) * | 2009-12-18 | 2011-06-30 | Chiteki Mirai:Kk | 文章入力装置、文章入力方法および文章入力プログラム |
CN103914513A (zh) * | 2014-01-13 | 2014-07-09 | 北京搜狗科技发展有限公司 | 一种实体输入方法和装置 |
JP2016012196A (ja) * | 2014-06-27 | 2016-01-21 | 富士通株式会社 | 変換装置、変換プログラム、及び変換方法 |
CN107015962A (zh) * | 2017-03-16 | 2017-08-04 | 北京光年无限科技有限公司 | 面向智能机器人的自定义意图识别的实现方法及装置 |
CN107203526A (zh) * | 2016-03-16 | 2017-09-26 | 高德信息技术有限公司 | 一种查询串语义需求分析方法及装置 |
CN108959256A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 短文本的生成方法、装置、存储介质和终端设备 |
CN109063221A (zh) * | 2018-11-02 | 2018-12-21 | 北京百度网讯科技有限公司 | 基于混合策略的查询意图识别方法和装置 |
CN109542247A (zh) * | 2018-11-14 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 句式推荐方法及装置、电子设备、存储介质 |
CN110096703A (zh) * | 2019-04-26 | 2019-08-06 | 北京零秒科技有限公司 | 用于意图识别的数据处理方法及装置、服务器、客户端 |
CN110489538A (zh) * | 2019-08-27 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10585924B2 (en) * | 2014-08-08 | 2020-03-10 | Cuong Duc Nguyen | Processing natural-language documents and queries |
CN107436922B (zh) * | 2017-07-05 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
-
2019
- 2019-12-19 CN CN201911319992.3A patent/CN113010768B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005301699A (ja) * | 2004-04-12 | 2005-10-27 | Sony Ericsson Mobilecommunications Japan Inc | 文章入力装置、方法、及びプログラム、並びに携帯端末装置 |
JP2011128958A (ja) * | 2009-12-18 | 2011-06-30 | Chiteki Mirai:Kk | 文章入力装置、文章入力方法および文章入力プログラム |
CN103914513A (zh) * | 2014-01-13 | 2014-07-09 | 北京搜狗科技发展有限公司 | 一种实体输入方法和装置 |
JP2016012196A (ja) * | 2014-06-27 | 2016-01-21 | 富士通株式会社 | 変換装置、変換プログラム、及び変換方法 |
CN107203526A (zh) * | 2016-03-16 | 2017-09-26 | 高德信息技术有限公司 | 一种查询串语义需求分析方法及装置 |
CN107015962A (zh) * | 2017-03-16 | 2017-08-04 | 北京光年无限科技有限公司 | 面向智能机器人的自定义意图识别的实现方法及装置 |
CN108959256A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 短文本的生成方法、装置、存储介质和终端设备 |
CN109063221A (zh) * | 2018-11-02 | 2018-12-21 | 北京百度网讯科技有限公司 | 基于混合策略的查询意图识别方法和装置 |
CN109542247A (zh) * | 2018-11-14 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 句式推荐方法及装置、电子设备、存储介质 |
CN110096703A (zh) * | 2019-04-26 | 2019-08-06 | 北京零秒科技有限公司 | 用于意图识别的数据处理方法及装置、服务器、客户端 |
CN110489538A (zh) * | 2019-08-27 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
A method of pre-computing connectivity relations for Japanese/Korean POS tagging;Ando, K et al.;《COMPUTATIONAL LINGUISTICS AND INTELLGENT TEXT PROCESSING》;20010101;第363-374页 * |
极速智能拼音输入法的设计与实现;张同国;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20180115;第I138-1982页 * |
自然语言理解——基于HNC理论的句类分析研究;陈鸿;《中国优秀硕士学位论文全文数据库(哲学与人文科学辑)》;20061215;第F084-218页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113010768A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN109582869B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN109101505B (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
CN111708943B (zh) | 一种搜索结果展示方法、装置和用于搜索结果展示的装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN107515870B (zh) | 一种搜索方法和装置、一种用于搜索的装置 | |
CN109783244B (zh) | 处理方法和装置、用于处理的装置 | |
CN109521888B (zh) | 一种输入方法、装置和介质 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN109814730B (zh) | 输入方法和装置、用于输入的装置 | |
CN110110078B (zh) | 数据处理方法和装置、用于数据处理的装置 | |
CN110633017A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN113010768B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN108073294B (zh) | 一种智能组词方法和装置、一种用于智能组词的装置 | |
CN110929122B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN114610163A (zh) | 推荐方法、装置和介质 | |
CN110362686B (zh) | 一种词库的生成方法、装置、终端设备和服务器 | |
CN112181163A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN113221030A (zh) | 一种推荐方法、装置和介质 | |
CN110765338A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN113031787A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN111460836B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN113703590A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN112306252A (zh) | 一种数据处理方法、装置和用于数据处理的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |