CN107133259A - 一种搜索方法和装置 - Google Patents

一种搜索方法和装置 Download PDF

Info

Publication number
CN107133259A
CN107133259A CN201710175703.1A CN201710175703A CN107133259A CN 107133259 A CN107133259 A CN 107133259A CN 201710175703 A CN201710175703 A CN 201710175703A CN 107133259 A CN107133259 A CN 107133259A
Authority
CN
China
Prior art keywords
user view
text data
word
data
view data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710175703.1A
Other languages
English (en)
Inventor
杨文俊
张大勇
陈栋宇
黄德权
廉志昌
李文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dawn Multimedia Technology Co Ltd
Original Assignee
Beijing Dawn Multimedia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dawn Multimedia Technology Co Ltd filed Critical Beijing Dawn Multimedia Technology Co Ltd
Priority to CN201710175703.1A priority Critical patent/CN107133259A/zh
Publication of CN107133259A publication Critical patent/CN107133259A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明实施例提供了一种搜索方法和装置,包括:接收从前端页面输入的文本数据;采用所述文本数据,生成用户意图数据;识别所述用户意图数据中的命名实体;采用所述命名实体进行搜索。本发明实施例提供了一种搜索方法,由服务器接收从前端页面输入的文本数据,并根据文本数据生成用户意图数据。服务器识别用户意图数据中的命名实体,并采用命名实体进行搜索。本发明实施例中的服务器能够根据用户输入的文本数据,精准的提取用户意图数据,确定用户需求,并对用户意图数据中的命名实体进行搜索,更精确的查找用户需要的数据,简化了用户查找数据的操作,提高了用户体验。

Description

一种搜索方法和装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种搜索方法和一种搜索装置。
背景技术
随着社会的进步,娱乐领域的消费在迅速发展,体育行业(包括传统体育及电竞行业)也得到前所未有的进步。越来越多的体育爱好者对数据有了更高的要求,
目前,体育赛事数据的展现方式是将整场赛事的数据统计后,以列表的形式展现出来。通常用户意图只是想查看整场比赛的一部分数据,而现有的这种展现方法将大量的数据都展现给用户,使得用户仍需要从大量的数据中进一步查找,不够简便。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种搜索方法和相应的一种搜索装置。
为了解决上述问题,本发明实施例公开了一种搜索方法,包括:
接收从前端页面输入的文本数据;
采用所述文本数据,生成用户意图数据;
识别所述用户意图数据中的命名实体;
采用所述命名实体进行搜索。
优选的,还包括:
获取针对所述命名实体的搜索结果;
将所述搜索结果返回所述前端页面进行展现。
优选的,所述接收从前端页面输入的文本数据的步骤包括:
接收从前端页面输入的语音数据;
将所述语音数据识别为文本数据。
优选的,所述识别所述用户意图数据中的命名实体的步骤包括:
将所述用户意图数据输入预先建立的命名实体模型进行词性标注,获得命名实体。
优选的,在采用所述文本数据,生成用户意图数据的步骤之前,还包括:
确定文本数据中的目标词;
确定与所述目标词对应的转换词;
采用所述转换词替换所述目标词,得到新的文本数据。
优选的,在采用所述文本数据,生成用户意图数据的步骤之前,还包括:
对所述文本数据进行纠错处理。
优选的,还包括:
若所述命名实体的词性不包括目标词性,则对所述用户意图数据进行模糊匹配处理,获得新的用户意图数据。
优选的,还包括:
获取与所述命名实体关联的关联词;
采用所述关联词进行搜索。
优选的,所述采用所述文本数据,生成用户意图数据的步骤包括:
对所述文本数据进行分词处理,得到多个一元分词和二元分词;
计算所述一元分词和二元分词的词频-逆文档频率tf-idf值;
采用所述一元分词和二元分词的词频-逆文档频率tf-idf值,生成特征向量;
将所述特征向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
优选的,所述采用所述文本数据,生成用户意图数据的步骤包括:
对所述文本数据进行分词处理,得到多个分词;
计算各个分词的词向量;
累加所述各个分词的词向量得到语义向量;
将所述语义向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
本发明实施例还公开了一种搜索装置,包括:
文本数据接收模块,用于接收从前端页面输入的文本数据;
用户意图数据生成模块,用于采用所述文本数据,生成用户意图数据;
命名实体识别模块,用于识别所述用户意图数据中的命名实体;
命名实体搜索模块,用于采用所述命名实体进行搜索。
优选的,还包括:
搜索结果获取模块,用于获取针对所述命名实体的搜索结果;
搜索结果展现模块,用于将所述搜索结果返回所述前端页面进行展现。
优选的,所述文本数据接收模块包括:
语音数据接收子模块,用于接收从前端页面输入的语音数据;
文本数据识别子模块,用于将所述语音数据识别为文本数据。
优选的,所述命名实体识别模块包括:
模型标注模块,用于将所述用户意图数据输入预先建立的命名实体模型进行词性标注,获得命名实体。
优选的,还包括:
目标词确定模块,用于在用户意图数据生成模块,采用所述文本数据,生成用户意图数据之前,确定文本数据中的目标词;
转换词确定模块,用于确定与所述目标词对应的转换词;
替换模块,用于采用所述转换词替换所述目标词,得到新的文本数据。
优选的,还包括:
纠错模块,用于在用户意图数据生成模块,采用所述文本数据,生成用户意图数据之前,对所述文本数据进行纠错处理。
优选的,还包括:
模糊匹配模块,用于若所述命名实体的词性不包括目标词性,则对所述用户意图数据进行模糊匹配处理,获得新的用户意图数据。
优选的,还包括:
关联词获取模块,用于获取与所述命名实体关联的关联词;
关联词搜索模块,用于采用所述关联词进行搜索。
优选的,所述用户意图数据生成模块包括:
第一分词子模块,用于对所述文本数据进行分词处理,得到多个一元分词和二元分词;
频率值计算子模块,用于计算所述一元分词和二元分词的词频-逆文档频率tf-idf值;
第一特征向量生成子模块,用于采用所述一元分词和二元分词的词频-逆文档频率tf-idf值,生成特征向量;
第一模型分类子模块,用于将所述特征向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
优选的,所述用户意图数据生成模块包括:
第二分词子模块,用于对所述文本数据进行分词处理,得到多个分词;
词向量计算子模块,用于计算各个分词的词向量;
语义向量生成子模块,用于累加所述各个分词的词向量得到语义向量;
第二模型分类子模块,用于将所述语义向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
本发明实施例包括以下优点:
本发明实施例提供了一种搜索方法,由服务器接收从前端页面输入的文本数据,并根据文本数据生成用户意图数据。服务器识别用户意图数据中的命名实体,并采用命名实体进行搜索。本发明实施例中的服务器能够根据用户输入的文本数据,精准的提取用户意图数据,确定用户需求,并对用户意图数据中的命名实体进行搜索,更精确的查找用户需要的数据,简化了用户查找数据的操作,提高了用户体验。
附图说明
图1是本发明的一种搜索方法实施例1的步骤流程图;
图2是本发明的一种搜索方法实施例2的步骤流程图;
图3是本发明实施例中一种对文本数据进行纠错处理的示意图;
图4是本发明实施例中一种采用双向-长短期记忆网络模型BLSTM对文本数据进行标注的示意图;
图5是本发明的一种搜索装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种搜索方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,接收从前端页面输入的文本数据;
在本发明实施例中,前端页面可以是指应用程序APP中的页面,也可以是浏览器打开的网页页面。
当用户想搜索某些体育数据时,用户可以在前端页面输入文本数据。前端页面将文本数据上传到后端服务器。
在本发明实施例中,在获得文本数据之后,还可以对文本数据进行纠错处理。
步骤102,采用所述文本数据,生成用户意图数据;
服务器根据文本数据,生成用户意图数据,用户意图数据表征了用户可能的意图。
步骤103,识别所述用户意图数据中的命名实体;
命名实体是指人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、时间、动作等等。
步骤104,采用所述命名实体进行搜索。
服务器采用用户意图数据中的一个或多个命名实体进行搜索。
例如,若用户意图数据为“科比命中率”,其中命名实体包括:科比、命中率,则可以对“科比”,“科比命中率”,“命中率”进行搜索。
本发明实施例提供了一种搜索方法,由服务器接收从前端页面输入的文本数据,并根据文本数据生成用户意图数据。服务器识别用户意图数据中的命名实体,并采用命名实体进行搜索。本发明实施例中的服务器能够根据用户输入的文本数据,精准的提取用户意图数据,确定用户需求,并对用户意图数据中的命名实体进行搜索,更精确的查找用户需要的数据,简化了用户查找数据的操作,提高了用户体验。
参照图2,示出了本发明的一种搜索方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤201,接收从前端页面输入的文本数据;
在本发明实施例中,前端页面可以是指应用程序APP中的页面,也可以是浏览器打开的网页页面。
在本发明实施例中,所述步骤201可以包括如下子步骤:
子步骤S11,接收从前端页面输入的语音数据;
子步骤S12,将所述语音数据识别为文本数据。
当用户想搜索某些体育数据时,用户可以在前端页面输入语音数据。前端页面将语音数据上传到后端服务器,服务器将语音数据识别为文本数据。
当然,语音数据的识别也可以由前端页面复制。前端页面接收用户输入的语音数据后,将语音数据转换为文本数据再上传至服务器。
步骤202,确定文本数据中的目标词;
由于文本数据中的某些词语可能会存在中文-英文转换词,或中文-拼音转换词等等。在对文本数据进行处理时,可以将文本数据中的目标词筛选出来,并用相应的转换词进行替换。
在服务器中可以设置一个映射表来存储目标词和对应的转换词。服务器将文本数据中的词语与在映射表中进行查找,从而确定文本数据中的目标词。
例如,文本数据为“科比命中率”,其中的目标词为“科比”,对应的英文转换词为“kobe”,对应的拼音转换词为“kebi”。替换后的新文本数据可以为:“kobe命中率”、“kebi命中率”。
步骤203,确定与所述目标词对应的转换词;
步骤204,采用所述转换词替换所述目标词,得到新的文本数据。
在本发明实施例中,在得到新的文本数据之后,还可以对新的文本数据进行纠错处理。
参照图3所示为本发明实施例中一种对文本数据进行纠错处理的示意图。首先,建立文本数据的trie树(字典树)。除根节点root外,每一个节点表示一个字词,字词后的数字表示从父亲节点到这个路径的词频之和。
假如输入的文本数据是“中山市”,顺着trie树的路径,找到“中山”的节点,该节点下面没有“市”这个路径(也就是没有“中山市”这个节点),则在“中山”这个节点之下的节点:“中山路”、“中山陵”中选择词频最大的词作为纠错词来代替原来的文本数据,也就是选择“中山路”替换“中山市”。
除了可以采用基于trie树的纠错方法外,本领域技术人员还可以采用其他方式对文本数据进行纠错除了,本发明实施例对此不作限定。
步骤205,采用所述新的文本数据,生成用户意图数据;
在本发明实施例的一种示例中,所述步骤205可以包括如下子步骤:
子步骤S21,对所述文本数据进行分词处理,得到多个一元分词和二元分词;
一元分词是指由单个字的分词,将文本数据按单字进行切分得到一元分词。
二元分词是指两个字组词的分词,将文本数据按两个字进行切分得到各个二元分词。例如,文本数据为“我们吃饭”,分词处理得到的一元分词包括:“我”“们”“吃”“饭”,二元分词包括:“我们”“们吃”“吃饭”。
子步骤S22,计算所述一元分词和二元分词的词频-逆文档频率tf-idf值;
TF-IDF(term frequency–inverse document frequency,词频-逆文档频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。
TF-IDF值的计算公式为:
TF-IDF值=词频TF*逆文档频率IDF
词频TF=某个词在文章中的出现次数/该文章出现次数最多的词的出现次数
逆文档频率IDF=log(语料库的文档总数/包含该词的文档数+1)。语料库的文档总数可以是服务器中所有文档的总数。
子步骤S23,采用所述一元分词和二元分词的词频-逆文档频率tf-idf值,生成特征向量;
特征向量Z=(z1,z2,……,zn);zi∈R。zi就是每个一元分词或者二元分词的tf-idf值。
子步骤S24,将所述特征向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
具体的,意图识别模型可以为线性核的SVM(Support Vector Machine,支持向量机),SVM是一个有监督的学习模型,可以用来进行分类。
在本发明实施例中,可以预先采用包含体育数据的训练样本进行机器训练,以生成可以对体育数据进行分类的意图识别模型。
意图识别模型生成后,可以将特征向量输入到模型中,由意图识别模型对特征向量进行分类,分类得到的结果就是用户意图数据。
在本发明实施例的另一种示例中,所述步骤205可以包括如下子步骤:
子步骤S31,对所述文本数据进行分词处理,得到多个分词;
将文本数据切分得到多个分词。
子步骤S32,计算各个分词的词向量;
要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数学化,词向量就是用来将语言中的词进行数学化的一种方式。通过训练将某种语言中的每一个词映射成一个固定长度的向量。
子步骤S33,累加所述各个分词的词向量得到语义向量;
例如,假设文本数据转换成了3个词向量,每个词向量维度为2,则词向量分别为[0.1,04],[0.3,0.1],[0.5,0.5]那么这个句子的文档向量就是[0.1,0.4]+[0.3,0.1]+[0.5,0.5]=[0.9,1.0]。
子步骤S34,将所述语义向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
具体可以采用作为训练样本的体育数据进行训练,以生成可以对体育数据进行分类的意图识别模型。
意图识别模型生成后,可以将特征向量输入到模型中,由意图识别模型对特征向量进行分类,分类得到的结果就是用户意图数据。
步骤206,识别所述用户意图数据中的命名实体;
在自然语言处理技术中,命名实体识别的本质可以认为是一个序列标注问题。
所谓序列标注是指对一个输入序列(X=x1,x2,x3,……,xn)中的每个元素打上标注集合中的某个标注,得到标注序列(Y=y1,y2,y3,……,yn)。
例如,假设标注集合包括4种(B:人名开始;M:人名中间;E:人名结束;N:不是人名)。输入序列为“张三和李四去吃饭”对应的标注序列为:BENBENNN。
在得到标注序列后,可以根据各个字的标注,切分得到各个词性的命名实体。例如,BE的标注组合对应的是人名的命名实体,当出现BE时进行切分,出现N时进行切分。则切分的标注序列为:BE/N/BE/N/N/N。对应的输入序列切分为:张三/和/李四/去/吃/饭。
在对输入序列进行分词后,可以按照得到各个词性的命名实体。
本领域技术人员应该可以理解,上述的命名实体识别方法仅仅是本发明的示例,本领域技术人员可以命名实体识别方法,本发明在此不作限制。如,在标注集合中可以设定更多的标注类型。选择命名实体时,可以采用其他标注类型作为命名实体。
在本发明实施例中,所述步骤206可以包括:将所述用户意图数据输入预先建立的命名实体模型进行词性标注,获得命名实体。
具体的,可以采用预先建立的BLSTM(Bidirectional Long Short-Term Memory,双向-长短期记忆网络)模型对文本数据进行标注。
参照图4所示,为本发明实施例中一种采用双向-长短期记忆网络模型BLSTM对文本数据进行标注的示意图。其中双向LSTM模型包括多对双向的节点,在向BLSTM模型输入文本数据“科比命中率”后,BLSTM模型中的每一对节点分别对一个字进行标注。例如,标注集合包括:(BN:球员名称开始;EN:球员名称结束;BP:篮球术语开始;MP:篮球术语中间;EP:篮球术语结束)。
图中,对“科”标注为BN,对“比”标注为EN,对“命”标注为BP,对“中”标注为MP,对“率”标注为EP。
根据对各个字的标注可以确定文本中的命名实体。如根据BN,EN的组合可以确定球员名称“科比”。根据BP,MP,EP的组合可以确定篮球术语“命中率”。
步骤207,采用所述命名实体进行搜索。
采用用户意图数据中的一个或多个命名实体进行搜索。例如,只对词性为人名的命名实体进行搜索。
在本发明实施例中,所述的方法还可以包括:
获取与所述命名实体关联的关联词;
采用所述关联词进行搜索。
具体的,在服务器中预置有关联映射表。关联映射表中存储有词语与其关联词的映射关系。如,关联映射表存储了词语与其反义词的映射关系。
服务器将命名实体在关联映射表中进行查找,若命名实体具有对应的关联词,则获取对应的关联词进行搜索。
在本发明实施例中,所述的方法还可以包括:
若所述命名实体的词性不包括目标词性,则对所述用户意图数据进行模糊匹配处理,获得新的用户意图数据;
将所述新的用户意图数据输入预先建立的命名实体模型进行词性标注,获得命名实体。
具体的,在服务器中预置有模糊映射表。模糊映射表中存储有词语和与其具有映射关系的模糊词。
当用户意图数据中的不包含目标词性的命名实体时,对用户意图数据进行模糊匹配处理。模糊匹配处理是指将用户意图数据中的命名实体在模糊映射表中进行查找,若命名实体具有对应的模糊词,则获取对应的模糊词替换用户意图数据中对应命名实体,得到新的用户意图数据。之后,服务器对新的用户意图数据进行标注,以获得新的命名实体。
步骤208,获取针对所述命名实体的搜索结果;
服务器获取采用命名实体进行搜索后得到的搜索结果。
步骤209,将所述搜索结果返回所述前端页面进行展现。
前端页面可以是指应用程序APP中的页面,或者浏览器打开的网页页面等。用户可以在前端页面查看搜索结果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明的一种搜索装置实施例的结构框图,具体可以包括如下模块:
文本数据接收模块301,用于接收从前端页面输入的文本数据;
用户意图数据生成模块302,用于采用所述文本数据,生成用户意图数据;
命名实体识别模块303,用于识别所述用户意图数据中的命名实体;
命名实体搜索模块304,用于采用所述命名实体进行搜索。
在本发明实施例中,所述的装置还可以包括:
搜索结果获取模块,用于获取针对所述命名实体的搜索结果;
搜索结果展现模块,用于将所述搜索结果返回所述前端页面进行展现。
在本发明实施例中,所述文本数据接收模块301可以包括:
语音数据接收子模块,用于接收从前端页面输入的语音数据;
文本数据识别子模块,用于将所述语音数据识别为文本数据。
在本发明实施例中,所述命名实体识别模块303可以包括:
模型标注模块,用于将所述用户意图数据输入预先建立的命名实体模型进行词性标注,获得命名实体。
在本发明实施例中,所述的装置还可以包括:
目标词确定模块,用于在用户意图数据生成模块,采用所述文本数据,生成用户意图数据之前,确定文本数据中的目标词;
转换词确定模块,用于确定与所述目标词对应的转换词;
替换模块,用于采用所述转换词替换所述目标词,得到新的文本数据。
在本发明实施例中,所述的装置还可以包括:
纠错模块,用于在用户意图数据生成模块,采用所述文本数据,生成用户意图数据之前,对所述文本数据进行纠错处理。
在本发明实施例中,所述的装置还可以包括:
模糊匹配模块,用于若所述命名实体的词性不包括目标词性,则对所述用户意图数据进行模糊匹配处理,获得新的用户意图数据。
在本发明实施例中,所述的装置还可以包括:
关联词获取模块,用于获取与所述命名实体关联的关联词;
关联词搜索模块,用于采用所述关联词进行搜索。
在本发明实施例中,所述用户意图数据生成模块302可以包括:
第一分词子模块,用于对所述文本数据进行分词处理,得到多个一元分词和二元分词;
频率值计算子模块,用于计算所述一元分词和二元分词的词频-逆文档频率tf-idf值;
第一特征向量生成子模块,用于采用所述一元分词和二元分词的词频-逆文档频率tf-idf值,生成特征向量;
第一模型分类子模块,用于将所述特征向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
在本发明实施例中,所述用户意图数据生成模块302可以包括:
第二分词子模块,用于对所述文本数据进行分词处理,得到多个分词;
词向量计算子模块,用于计算各个分词的词向量;
语义向量生成子模块,用于累加所述各个分词的词向量得到语义向量;
第二模型分类子模块,用于将所述语义向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种搜索方法和一种搜索装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种搜索方法,其特征在于,包括:
接收从前端页面输入的文本数据;
采用所述文本数据,生成用户意图数据;
识别所述用户意图数据中的命名实体;
采用所述命名实体进行搜索。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取针对所述命名实体的搜索结果;
将所述搜索结果返回所述前端页面进行展现。
3.根据权利要求1所述的方法,其特征在于,所述接收从前端页面输入的文本数据的步骤包括:
接收从前端页面输入的语音数据;
将所述语音数据识别为文本数据。
4.根据权利要求1所述的方法,其特征在于,所述识别所述用户意图数据中的命名实体的步骤包括:
将所述用户意图数据输入预先建立的命名实体模型进行词性标注,获得命名实体。
5.根据权利要求1所述的方法,其特征在于,在采用所述文本数据,生成用户意图数据的步骤之前,还包括:
确定文本数据中的目标词;
确定与所述目标词对应的转换词;
采用所述转换词替换所述目标词,得到新的文本数据。
6.根据权利要求1或5所述的方法,其特征在于,在采用所述文本数据,生成用户意图数据的步骤之前,还包括:
对所述文本数据进行纠错处理。
7.根据权利要求4所述的方法,其特征在于,还包括:
若所述命名实体的词性不包括目标词性,则对所述用户意图数据进行模糊匹配处理,获得新的用户意图数据。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取与所述命名实体关联的关联词;
采用所述关联词进行搜索。
9.根据权利要求1所述的方法,其特征在于,所述采用所述文本数据,生成用户意图数据的步骤包括:
对所述文本数据进行分词处理,得到多个一元分词和二元分词;
计算所述一元分词和二元分词的词频-逆文档频率tf-idf值;
采用所述一元分词和二元分词的词频-逆文档频率tf-idf值,生成特征向量;
将所述特征向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
10.根据权利要求1所述的方法,其特征在于,所述采用所述文本数据,生成用户意图数据的步骤包括:
对所述文本数据进行分词处理,得到多个分词;
计算各个分词的词向量;
累加所述各个分词的词向量得到语义向量;
将所述语义向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
11.一种搜索装置,其特征在于,包括:
文本数据接收模块,用于接收从前端页面输入的文本数据;
用户意图数据生成模块,用于采用所述文本数据,生成用户意图数据;
命名实体识别模块,用于识别所述用户意图数据中的命名实体;
命名实体搜索模块,用于采用所述命名实体进行搜索。
12.根据权利要求11所述的装置,其特征在于,还包括:
搜索结果获取模块,用于获取针对所述命名实体的搜索结果;
搜索结果展现模块,用于将所述搜索结果返回所述前端页面进行展现。
13.根据权利要求11所述的装置,其特征在于,所述文本数据接收模块包括:
语音数据接收子模块,用于接收从前端页面输入的语音数据;
文本数据识别子模块,用于将所述语音数据识别为文本数据。
14.根据权利要求11所述的装置,其特征在于,所述命名实体识别模块包括:
模型标注模块,用于将所述用户意图数据输入预先建立的命名实体模型进行词性标注,获得命名实体。
15.根据权利要求11所述的装置,其特征在于,还包括:
目标词确定模块,用于在用户意图数据生成模块,采用所述文本数据,生成用户意图数据之前,确定文本数据中的目标词;
转换词确定模块,用于确定与所述目标词对应的转换词;
替换模块,用于采用所述转换词替换所述目标词,得到新的文本数据。
16.根据权利要求11或15所述的装置,其特征在于,还包括:
纠错模块,用于在用户意图数据生成模块,采用所述文本数据,生成用户意图数据之前,对所述文本数据进行纠错处理。
17.根据权利要求14所述的装置,其特征在于,还包括:
模糊匹配模块,用于若所述命名实体的词性不包括目标词性,则对所述用户意图数据进行模糊匹配处理,获得新的用户意图数据。
18.根据权利要求11所述的装置,其特征在于,还包括:
关联词获取模块,用于获取与所述命名实体关联的关联词;
关联词搜索模块,用于采用所述关联词进行搜索。
19.根据权利要求11所述的装置,其特征在于,所述用户意图数据生成模块包括:
第一分词子模块,用于对所述文本数据进行分词处理,得到多个一元分词和二元分词;
频率值计算子模块,用于计算所述一元分词和二元分词的词频-逆文档频率tf-idf值;
第一特征向量生成子模块,用于采用所述一元分词和二元分词的词频-逆文档频率tf-idf值,生成特征向量;
第一模型分类子模块,用于将所述特征向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
20.根据权利要求11所述的装置,其特征在于,所述用户意图数据生成模块包括:
第二分词子模块,用于对所述文本数据进行分词处理,得到多个分词;
词向量计算子模块,用于计算各个分词的词向量;
语义向量生成子模块,用于累加所述各个分词的词向量得到语义向量;
第二模型分类子模块,用于将所述语义向量输入预先建立的意图识别模型进行分类,获得用户意图数据。
CN201710175703.1A 2017-03-22 2017-03-22 一种搜索方法和装置 Pending CN107133259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710175703.1A CN107133259A (zh) 2017-03-22 2017-03-22 一种搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710175703.1A CN107133259A (zh) 2017-03-22 2017-03-22 一种搜索方法和装置

Publications (1)

Publication Number Publication Date
CN107133259A true CN107133259A (zh) 2017-09-05

Family

ID=59720922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710175703.1A Pending CN107133259A (zh) 2017-03-22 2017-03-22 一种搜索方法和装置

Country Status (1)

Country Link
CN (1) CN107133259A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415903A (zh) * 2018-03-12 2018-08-17 武汉斗鱼网络科技有限公司 判断搜索意图识别有效性的评价方法、存储介质和设备
CN108959247A (zh) * 2018-06-19 2018-12-07 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109461039A (zh) * 2018-08-28 2019-03-12 厦门快商通信息技术有限公司 一种文本处理方法及智能客服方法
CN109636524A (zh) * 2018-12-11 2019-04-16 优估(上海)信息科技有限公司 一种车辆信息获取方法、装置及系统
CN109785840A (zh) * 2019-03-05 2019-05-21 湖北亿咖通科技有限公司 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质
CN110019682A (zh) * 2017-12-28 2019-07-16 北京京东尚科信息技术有限公司 用于处理信息的系统、方法和装置
WO2019214679A1 (zh) * 2018-05-09 2019-11-14 华为技术有限公司 实体搜索方法、相关设备及计算机存储介质
CN110456920A (zh) * 2018-05-08 2019-11-15 北京金山安全软件有限公司 一种基于语义分析的内容推荐方法和装置
WO2019227576A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 发票校验方法、装置、计算机设备及存储介质
CN113553851A (zh) * 2021-07-15 2021-10-26 杭州网易云音乐科技有限公司 关键词的确定方法、装置、存储介质和计算设备
CN113722467A (zh) * 2021-08-31 2021-11-30 康键信息技术(深圳)有限公司 用户搜索意图的处理方法、系统、装置和存储介质
CN113722467B (zh) * 2021-08-31 2024-05-17 康键信息技术(深圳)有限公司 用户搜索意图的处理方法、系统、装置和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN103412882A (zh) * 2013-07-18 2013-11-27 百度在线网络技术(北京)有限公司 一种识别消费意图的方法及装置
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
CN103838744A (zh) * 2012-11-22 2014-06-04 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN103857446A (zh) * 2011-08-26 2014-06-11 齐特里斯股份公司 用于捕捉网球比赛数据的设备
CN105138515A (zh) * 2015-09-02 2015-12-09 百度在线网络技术(北京)有限公司 命名实体识别方法和装置
CN106095834A (zh) * 2016-06-01 2016-11-09 竹间智能科技(上海)有限公司 基于话题的智能对话方法及系统
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN103857446A (zh) * 2011-08-26 2014-06-11 齐特里斯股份公司 用于捕捉网球比赛数据的设备
CN103838744A (zh) * 2012-11-22 2014-06-04 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN103412882A (zh) * 2013-07-18 2013-11-27 百度在线网络技术(北京)有限公司 一种识别消费意图的方法及装置
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
CN105138515A (zh) * 2015-09-02 2015-12-09 百度在线网络技术(北京)有限公司 命名实体识别方法和装置
CN106095834A (zh) * 2016-06-01 2016-11-09 竹间智能科技(上海)有限公司 基于话题的智能对话方法及系统
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王君泽: "《网络舆情应对的关键技术研究》", 31 January 2017, 华中科技大学出版 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019682A (zh) * 2017-12-28 2019-07-16 北京京东尚科信息技术有限公司 用于处理信息的系统、方法和装置
CN108415903B (zh) * 2018-03-12 2021-09-07 武汉斗鱼网络科技有限公司 判断搜索意图识别有效性的评价方法、存储介质和设备
CN108415903A (zh) * 2018-03-12 2018-08-17 武汉斗鱼网络科技有限公司 判断搜索意图识别有效性的评价方法、存储介质和设备
CN110456920A (zh) * 2018-05-08 2019-11-15 北京金山安全软件有限公司 一种基于语义分析的内容推荐方法和装置
WO2019214679A1 (zh) * 2018-05-09 2019-11-14 华为技术有限公司 实体搜索方法、相关设备及计算机存储介质
US11636143B2 (en) 2018-05-09 2023-04-25 Huawei Technologies Co., Ltd. Entity search method, related device, and computer storage medium
WO2019227576A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 发票校验方法、装置、计算机设备及存储介质
CN108959247A (zh) * 2018-06-19 2018-12-07 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN108959247B (zh) * 2018-06-19 2022-09-09 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109461039A (zh) * 2018-08-28 2019-03-12 厦门快商通信息技术有限公司 一种文本处理方法及智能客服方法
CN109636524A (zh) * 2018-12-11 2019-04-16 优估(上海)信息科技有限公司 一种车辆信息获取方法、装置及系统
CN109785840A (zh) * 2019-03-05 2019-05-21 湖北亿咖通科技有限公司 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质
CN113553851A (zh) * 2021-07-15 2021-10-26 杭州网易云音乐科技有限公司 关键词的确定方法、装置、存储介质和计算设备
CN113722467A (zh) * 2021-08-31 2021-11-30 康键信息技术(深圳)有限公司 用户搜索意图的处理方法、系统、装置和存储介质
CN113722467B (zh) * 2021-08-31 2024-05-17 康键信息技术(深圳)有限公司 用户搜索意图的处理方法、系统、装置和存储介质

Similar Documents

Publication Publication Date Title
CN107133259A (zh) 一种搜索方法和装置
CN106709040B (zh) 一种应用搜索方法和服务器
CN103049435B (zh) 文本细粒度情感分析方法及装置
US9477761B2 (en) Search method, search apparatus and search engine system
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
US8478052B1 (en) Image classification
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研系统
CN102955848B (zh) 一种基于语义的三维模型检索系统和方法
CN110298033A (zh) 关键词语料标注训练提取工具
CN107122404A (zh) 一种用户意图数据提取方法和装置
CN110489553B (zh) 一种基于多源信息融合的情感分类方法
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
US10915707B2 (en) Word replaceability through word vectors
CN103150356B (zh) 一种应用的泛需求检索方法及系统
CN111694927B (zh) 一种基于改进词移距离算法的文档自动评阅方法
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111625624A (zh) 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN113901173A (zh) 一种检索方法、装置、电子设备及计算机存储介质
US20190065502A1 (en) Providing information related to a table of a document in response to a search query
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN105988978B (zh) 确定文本焦点的方法及系统
CN110008312A (zh) 一种文档写作助手实现方法、系统及电子设备
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905