CN110709828A - 使用条件随机域模型确定文本属性的系统及方法 - Google Patents

使用条件随机域模型确定文本属性的系统及方法 Download PDF

Info

Publication number
CN110709828A
CN110709828A CN201780091643.3A CN201780091643A CN110709828A CN 110709828 A CN110709828 A CN 110709828A CN 201780091643 A CN201780091643 A CN 201780091643A CN 110709828 A CN110709828 A CN 110709828A
Authority
CN
China
Prior art keywords
text
word
features
attributes
current word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780091643.3A
Other languages
English (en)
Inventor
代大攀
宋奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Publication of CN110709828A publication Critical patent/CN110709828A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于确定文本的一个或多个子集中的每一个子集的属性的系统及方法。该方法包括:接收来自终端设备的查询(505);从查询中提取文本(510);确定文本的一个或多个子集(520)获取条件随机场(CRF)模型(530);基于CRF模型和文本的一个或多个子集中的每一个子集确定文本的一个或多个子集中的每一个子集的属性(540)。

Description

使用条件随机域模型确定文本属性的系统及方法
技术领域
本申请一般涉及在线按需服务的系统及方法,尤其涉及使用条件随机域模型确定文本属性的系统及方法。
背景技术
基于因特网的按需服务,例如搜索服务之类的按需服务,由于其便利性而变得愈来愈流行。当用户请求搜索服务(例如,地图搜索服务)时,用户输入的查询的文本可以通常以“where”和“what”的形式出现。查询的文本通常基于字典或手动标注。但是,对大规模查询进行手动标注是不切实际的。需要一种高效的文本标注技术来确定文本的属性。
发明内容
本申请的一方面提供了一种系统。该系统可以包括至少一个计算机可读存储介质,其包括用于管理服务供应的一组指令。该系统可以包括与至少一个存储介质通信的至少一个处理器。该至少一个处理器可以通过网络接收来自终端装置的查询。该至少一个处理器可以确定该文本的一个或多个子集。该至少一个处理器还可以获取经训练的条件随机域(Conditional Random Field,CRF)模型。该至少一个处理器可以进一步基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定文本的一个或多个子集中的每一个子集的属性。
本申请的另一方面提供了一种方法。该方法可以在至少一个装置上实施,每个装置具有至少一个处理器、存储器和通信平台以连接到网络。该至少一个装置可以通过网络接收来自终端装置的查询。该至少一个装置还可以确定文本的一个或多个子集。该至少一个装置还可以获取经训练的条件随机域(CRF)模型。该至少一个装置还可以基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定文本的一个或多个子集中的每一个子集的属性。
本申请的另一方面披露了一种非暂时性机器可读存储介质可以包括指令。当来自请求者终端的在线按需服务平台的至少一个处理器存取非暂时性机器可读存储介质时,所述指令可以使得至少一个处理器执行以下一个或多个操作。所述指令可以使得至少一个处理器从终端装置接收查询。所述指令可以使至少一个处理器从查询中提取文本。所述指令还可以使至少一个处理器确定文本的一个或多个子集。所述指令还可以使至少一个处理器获取经训练的条件随机域(CRF)模型。所述指令还可以使得至少一个处理器基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
在一些实施例中,所述文本的一个或多个子集中的每一个子集的属性可以包括空间属性或实体属性中的至少一个。
在一些实施例中,所述文本的一个或多个子集的属性包括具有第一标签的至少一个空间属性。
在一些实施例中,所述文本的一个或多个子集的属性进一步包括具有第二标签的至少一个实体属性。
在一些实施例中,至少一个处理器可以进一步确定所述文本的一个或多个子集中的每一个子集拥有所确定的属性的概率。
在一些实施例中,所述经训练的CRF模型可以根据用于产生CRF模型的流程来产生。该流程可包括获取初始CRF模型。该流程可包括获取多个训练样本。该流程可包括确定特征模板。该流程可包括基于所述多个训练样本和特征模板,确定一个或多个特征函数。该流程可包括基于所述一个或多个特征函数来训练所述初始CRF模型以产生所述经训练的CRF模型。
在一些实施例中,所述多个训练样本可包括历史样本。所述历史样本可以根据用于产生历史样本的流程来产生。该流程可包括获取历史查询。该流程可包括从所述历史查询中提取文本。该流程可包括确定所述历史查询的文本的至少一个子集。该流程可包括获取与所述历史查询相关联的兴趣点(Point of Interest,POI)。该流程可包括根据与所述历史查询相关联的POI来确定所述历史查询的文本的至少一个子集的属性。该流程可包括根据所确定的属性和所述历史查询的文本的至少一个子集来产生历史样本。
在一些实施例中,所述特征模板可包括精细化特征、泛化特征或个性化特征中的至少一个。
在一些实施例中,所述精细化特征可包括当前词的特征、所述当前词的前一个词的特征、所述当前词的后一个词的特征、所述当前词和所述当前词的前一个词的关系、所述当前词与所述当前词的后一个词的关系、所述当前词的前一个词与所述当前词的后一个词的关系、所述当前词的特征与所述当前词的前一个词的特征的关系、所述当前词的特征与所述当前词的后一词的特征的关系或所述当前词的前一个词的特征与所述当前词的后一个词的特征的关系中的至少一个。
在一些实施例中,所述泛化特征可包括数字、字母、字符大小、前缀或后缀中的至少一个。
在一些实施例中,所述个性化特征可包括与所述终端装置相关联的用户相关的识别号码信息、查询时间或所述终端装置的位置信息中的至少一个。
附图说明
本申请将结合示例性实施例进一步进行描述。这些示例性的实施例将结合参考附图进行详细描述。这些实施例是非限制性的示例性实施例,在附图的多种视图下的实施例中,相似的组件符号表示相似的结构,并且其中:
图1是根据本申请的一些实施例所示的一种示例性按需服务系统的示意图;
图2是被配置为实施本申请中揭露的特定系统的示例性移动装置的模块图;
图3是根据本申请的一些实施例所示的一种示例性计算装置的模块图;
图4是根据本申请的一些实施例所示的一种示例性处理引擎的模块图;
图5是根据本申请的一些实施例所示的一种用于确定查询的文本的一个或多个子集的属性的示例性流程的流程图;
图6是根据本申请的一些实施例所示的一种用于确定条件随机域(CRF)模型的示例性流程的流程图;以及
图7是根据本申请的一些实施例所示的一种用于确定训练样本的示例性流程的流程图。
具体实施方式
以下描述是为了使本领域具有通常知识者能够实施和利用本申请,并在特定应用及其要求的背景下提供的。对于本领域具有通常知识者来讲,对本申请揭露的实施例进行的各种修改是显而易见的,并且在不背离本申请的精神及范围的情况下,本申请定义的普遍原则可以适用于其他实施例及应用。因此,本申请不限于所示的实施例,而是符合与申请专利范围一致的最广泛范围。
本文中所使用的术语仅用于描述特定示例性实施例,并不限制本申请的范围。如本文使用的单数形式“一”、“一个”及“该”、“所述”可以同样包括复数形式,除非上下文明确提示例外情形。应当被进一步理解的是,当在本申请中使用时,术语“包括”和/或“包含”指明所述特征、整体、步骤、操作、元素和/或组件,但并不排除可以存在和添加一个或多个其他特征、整体、步骤、操作、元素、组件和/或其组合。
根据以下对附图的描述,本申请所述的和其他的特征、特色,以及相关结构元素的功能和操作方法,以及制造的经济和部件组合更加显而易见,这些都构成说明书的一部分。然而,应当理解,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应当理解的是,附图并不是按比例的。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,流程图的操作不一定按照顺序来精确地执行。相反地,可以按照倒序执行或同时处理各种步骤。此外,可以将一个或多个其他操作添加到这些流程中,或从这些流程中移除一个或多个操作。
此外,虽然本申请中的系统和方法主要是关于处理查德询的,但应当理解的是,这仅仅是一个示例性实施例。本申请的系统或方法可以应用于任何其他类型的搜索服务。例如,本申请的系统或方法可以应用于不同环境的运输系统,包括陆地、海洋、航空航天或类似物或其任意组合。运输系统的车辆可以包括出租车、私家车、顺风车、公共汽车、列车、动车、高铁、地铁、船舶、飞机、宇宙飞船、热气球、无人驾驶车辆或类似物或其任意组合。运输系统还可以包括用于管理和/或分配的任何运输系统,例如用于发送和/或接收快递的系统。本申请的系统或方法的应用可以包括网页、浏览器插件、客户终端、定制系统、内部分析系统、人工智能机器人或类似物或其任意组合。
本申请中的术语“乘客”、“请求者”、“服务请求者”和“客户”可互换地用于指代可以请求或订购服务的个体、实体。而且,本申请中的术语“司机”、“提供者”、“服务提供者”和“供应者”可互换地用于指代可提供服务或促进提供服务的个人、实体或工具。本申请中的术语“用户”可以指代可请求服务、订购服务、提供服务或促进提供服务的个人、实体。例如,用户可以是乘客、司机、操作员或类似物或其任意组合。在本申请中,“乘客”、“用户装置”、“用户终端”和“乘客终端”可以互换使用,并且“司机”和“司机终端”可以互换使用。
术语“服务请求”是指可以由用户(例如,乘客、请求者、运营商、服务请求者、客户、司机、提供者、服务提供商、供货商)启动的请求。服务请求可以涉及用户可能想要去的兴趣点(POI)。
本系统可以被应用在许多领域,例如,出租车运输服务、驾驶应用程序、分发应用程序、地图应用程序或导航应用程序等。
根据本申请的一些实施例,搜索服务可以使用一个或多个机器学习算法来处理,例如神经网络算法、分类算法、回归算法、基于实例的算法、归一化算法、判定树算法、贝叶斯算法、分群算法、关联规则算法、深度学习算法和简化维度算法或类似物或其任意组合。例如,神经网络算法可以包括递归神经网络、感知器神经网络、反向传播、Hopfield网络、自组织映像(SOM)或学习向量量化(LVQ)等。回归算法可以包括普通最小二乘法、逻辑回归、逐步回归、多变量自适应回归样条、局部估计散点图平滑等。排序算法可以包括插入排序、选择排序、合并排序、堆排序、冒泡排序、外壳排序、梳理排序、计数排序、桶排序、基数排序或类似物或其任意组合。基于实例的算法可以包括k-最近邻居(KNN)、学习向量量化(LVQ)、自组织映像(SOM)等。归一化算法可以包括RIDge回归、最小绝对收缩和选择操作员(LASSO)或弹性网。判定树算法可以包括分类和回归树(CART)、迭代二叉树3(ID3)、C4.5、卡方自动交互侦测,检测(CHAID)、判定树桩、随机森林、多变量自适应回归样条(MARS)或梯度提升机器(GBM)等。贝叶斯算法可以包括朴素贝叶斯算法,平均单依赖估计器(AODE)或贝叶斯置信网络(BBN)等。基于树的算法可以包括支持向量机(SVM)、径向基函数(RBF)或线性鉴别分析(LDA)等。分群算法可以包括k均值分群算法、模糊c均值分群算法、分层分群算法、高斯分群算法、基于MST的分群算法、核k-均值分群算法、基于密度的分群算法等。关联规则算法可以包括Apriori算法或Eclat算法等。深度学习算法可以包括受限玻尔兹曼机(RBN)、深度置信网络(DBN)、卷积网络、堆栈自编码器等。三维算法可以包括主成分分析(PCA)、偏最小二乘回归(PLS)、Sammon映射、多维缩放(MDS)、投影追踪等。
本申请一方面揭露了用于确定针对按需服务(例如,搜索服务)的查询的文本的一个或多个子集的属性的系统和方法。所述系统可以从查询中提取文本并确定查询的文本的一个或多个子集。系统可以进一步获取经训练的CRF模型并为查询的文本的一个或多个子集中的每一个子集确定属性。通过为查询的一个或多个子集中的每一个子集确定属性,提高了搜索服务平台的效率。
应该注意的是,例如在线呼叫车辆服务的在线按需运输服务是一种起源于网际网络时代的新型服务。它为用户和服务提供方提供了只在后因特网时代才可能实现的技术方案。在因特网时代之前,当用户在街道上呼叫一辆出租车时,出租车预定请求和接受只能在乘客和一个看见该乘客的出租车司机之间发生。如果乘客通过电话招呼一辆出租车,出租车预定请求和接受只能在该乘客和服务提供方(例如,出租车公司或代理人)之间发生。然而,在线出租车允许一个用户实时地和自动地向与该用户相距一段距离的大量的个别服务提供方(例如,出租车)分配服务请求。它同时允许多个服务提供方同时地和实时地对该服务请求进行响应。因此,通过因特网,所述在线随选运输系统可以为用户和服务提供方提供一个更加高效的交易平台,这在传统的因特网时代之前的运输服务系统中是无法达到的。分配预约订单可以为请求者和服务提供商提供高效的服务。
图1是根据本申请的一些实施例所示的一种示例性按需服务系统100的示意图。例如,按需服务系统100可以是用于运输服务的在线搜索服务平台,例如,通过搜索位置的出租车呼叫服务、驾驶服务、快运包裹车服务,拼车服务、公交车服务、司机租用和穿梭车服务。按需服务系统100可以是包括服务器110、网络120、一个或多个用户终端(例如,一个或多个乘客终端130、司机终端140)和存储器150的在线平台。服务器110可以包括处理引擎112。应该注意的是,图1中所示的按需服务系统100包括处理引擎112。图1仅仅是一个例子,并不意在限制。在一些实施例中,按需服务系统100可以包括乘客终端130或司机终端140。例如,在导航系统中,用户可以使用安装在他/她的终端中的导航应用程序以搜索位置,并且按需服务系统100可以通过输入用户的查询来确定与该位置相关联的一个或多个搜索结果。在线搜索服务平台使用“乘客”和“服务提供者/司机/司机终端”。当使用“服务请求者”、“用户”、“用户终端”、“终端”或“用户装置”时,将其视为包括在线搜索服务和导航服务的所有基于位置的服务(Location-based Service,LBS)。在一些实施例中,服务器110可以是单个服务器或服务器组。服务器组可以是集中的或分布式的(例如,服务器110可以是分布式系统)。在一些实施例中,服务器110可以是本地的或远程的。例如,服务器110可以经由网络120存取存储在一个或多个用户终端(例如,一个或多个乘客终端130、司机终端140)和/或存储器150中的信息和/或数据。又例如,服务器110可以直接连接到一个或多个用户终端(例如,一个或多个乘客终端130、司机140)和/或存储器150以存取存储的信息和/或数据。在一些实施例中,服务器110可以在云平台上实现。仅作为示例,云平台可以包括私有云、公共云、混合云、小区云、分布式云、中间云、多重云或类似物或其任意组合。在一些实施例中,服务器110可以在具有图3中所示的一个或多个组件的计算装置300上实施。
在一些实施例中,服务器110可以包括处理引擎112。处理引擎112可以处理信息和/或数据。信息和/或数据可能与查询有关。查询可以由乘客终端或司机终端输入。例如,处理引擎112可以确定文本的属性或确定查询的文本的一个或多个子集的属性。处理引擎112可以进一步基于从乘客终端或司机终端获取的查询来确定一个或多个搜索结果。乘客终端或司机终端可以从一个或多个搜索结果中选择兴趣点(POI)。POI可以是乘客或司机可能想要去的地点。在一些实施例中,处理引擎112可以包括一个或多个处理引擎(例如,单核心处理引擎或多核心处理器)。仅作为示例,处理引擎112可以包括中央处理单元(CPU)、特定应用集成电路(ASIC)、特定应用指令集处理器(ASIP)、图形处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器或类似物或其任意组合。
网络120可以促进信息和/或数据的交换。在一些实施例中,按需服务系统100(例如,服务器110、一个或多个乘客终端130、一个或多个司机终端140或存储器150)中的一个或多个组件可以发送信息和/或数据。例如,服务器110可以经由网络120从请求者终端130获得/获取服务请求。又例如,服务器110可以经由网络120从存储器150接收训练样本。在一些实施例中,网络120可以是任意形式的有线或者无线网络,或其任意组合。仅作为范例,网络120可以是一电缆网络、缆线网络、光纤网络、电信网络、内部网络、因特网、局域网络(LAN)、广域网(WAN)、无线局域网络(WLAN)、都会局域网络(MAN)、公用电话交换网(PSTN)、蓝牙网络,紫蜂(ZigBee)网络、近场通讯(NFC)或类似物或其任意组合。在一些实施例中,网络120可包括一个或者多个网络进接点。例如,网络120可包括有线或无线网络进接点比如基站和/或因特网交换点120-1、120-2...。通过该网络进接点,按需服务系统100的一个或多个组件可以连接至网络120以交换信息和/或数据。
在一些实施例中,乘客可以是乘客终端130的用户。在一些实施例中,乘客终端130的用户可以是乘客以外的人。例如,乘客终端130的用户A可以使用乘客终端130来为乘客发送搜索请求。在一些实施例中,司机可以是司机终端130的用户。在一些实施例中,司机终端140的用户可以是不同于司机的人。例如,司机终端140的用户B可以使用司机终端140为司机发送搜索服务请求。在一些实施例中,“乘客”和“乘客终端”可以互换使用,并且“司机”和“司机终端”可以互换使用。
在一些实施例中,乘客终端130可以包括移动装置130-1、平板电脑130-2、笔记本电脑130-3、在机动车辆中的内置装置130-4或类似物或其任意组合。在一些实施例中,移动装置130-1可包括智能家居装置,可穿戴设备、智能移动装置、虚拟现实装置、扩增实境装置或类似物或其任意组合。在一些实施例中,智能家居装置可包括智能照明装置、智能电器控制装置、智能监测装置、智能电视、智能视讯摄影机、对讲机或类似物或其任意组合。在一些实施例中,该可穿戴设备可包括智慧手镯、智慧鞋袜、智慧眼镜、智慧头盔、智慧手表、智慧衣服、智能背包、智能附件或类似物或其任意组合。在一些实施例中,该智能移动装置可包括智能电话、个人数字助理(PDA)、游戏设备、导航装置、销售点(POS)装置或类似物或其任意组合。在一些实施例中,该虚拟现实装置和/或扩增实境装置可包括一虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、扩增实境头盔、扩增实境眼镜、扩增实境补丁或类似物或其任意组合。例如,该虚拟现实装置和/或扩增实境装置可包括Google Glass、Oculus Rift、HoloLens或Gear VR等。在一些实施例中,在机动车辆中的内置装置130-4可包括车载计算机或车载电视等。在一些实施例中,乘客终端130可以是具有用来确定请求者和/或乘客终端130位置的定位技术的装置。
在一些实施例中,司机终端140可以是与乘客终端130类似或相同的装置。在一些实施例中,司机终端140可以是用于定位司机的位置和/或司机终端140的具有定位技术的装置。在一些实施例中,乘客终端130和/或司机终端140可以与其他定位装置通信以确定服务请求者、乘客终端130、司机和/或司机终端140的位置。在一些实施例中,乘客终端130和/或司机终端140可以将位置信息发送到服务器110。
存储器150可以存储数据和/或指令。例如,数据可以是训练模型、一个或多个训练样本、历史订单或类似物或其任意组合。在一些实施例中,存储器150可以存储从一个或多个用户终端(例如,一个或多个乘客终端130、司机终端140)获取的资料。在一些实施例中,存储器150可以存储服务器110可以执行或用于执行本申请中描述的示例性方法的数据和/或指令。在一些实施例中,存储器150可以包括大容量存储器、抽取式存储器、挥发性读写内存、只读存储器(ROM)或类似物或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态硬盘等。示例性抽取式存储器可包括一快闪驱动器、软盘、光盘、记忆卡、压缩碟、磁带等。示例性的挥发性读写内存可包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、闸流体RAM(T-RAM)和零电容RAM(Z-RAM)等。示例性的ROM可包括屏蔽ROM(MROM)、可程序ROM(PROM)、可抹除可程序ROM(PEROM)、电子可抹除可程序ROM(EEPROM)、光盘ROM(CD-ROM)或数字通用磁盘ROM等。在一些实施例中,存储器150可在云端平台上执行。仅仅作为示例,该云端平台可以包括私有云、公共云、混合云、小区云、分布式云、内部云、多层云或类似物或其任意组合。
在一些实施例中,存储器150可连接到网络120以与按需服务系统100中的一个或多个组件(例如,服务器110、一个或多个用户终端等)进行通信。按需服务系统100中的一个或多个组件可以经由网络120存取存储在存储器150中的数据和/或指令。在一些实施例中,存储器150可以直接连接到或与一个或多个按需服务系统100(例如,服务器110、一个或多个用户终端等)。在一些实施例中,存储器150可以是服务器110的一部分。
在一些实施例中,按需服务系统100(例如,服务器110、一个或多个用户终端等)中的一个或多个组件可以具有存取存储装置150的许可。在一些实施例中,在满足一个或多个条件时,按需服务系统100中的一个或多个组件可以读取和/或修改与服务请求者、司机和/或公众有关的信息。例如,服务器110可以在服务之后读取和/或修改一个或多个用户的信息。
在一些实施例中,按需服务系统100的一个或多个组件之间的信息交换可以通过请求一个服务来实现。服务请求的对象可以是任何产品。在一些实施例中,该产品可以是有形产品或无形产品。该有形产品可以包括食物、药物、日用品、化学产物、电器用品、衣服、汽车、住宅、奢侈品或类似物或其任意组合。该无形产品可以包括服务产品、金融产品、知识产品、因特网产品或类似物或其任意组合。因特网产品可以包括个人主机产品、Web产品、移动网络产品、商用主机产品、嵌入式产品或类似物或其任意组合。移动网络产品可以是应用在可移动终端上的软件、程序、系统或类似物或其任意组合。可移动终端可以包括平板电脑、笔记本电脑、移动电话、个人数字助理(PDA)、智能手表、销售点(POS)装置、车载计算机、车载电视、可穿戴设备或类似物或其任意组合。例如,产品可以是在计算机或移动电话上使用的任一软件和/或应用程序。该软件和/或应用程序可以与社交、购物、运输、娱乐、学习、投资或类似物或其任意组合相关联。在一些实施例中,与运输相关联的软件和/或应用程序可以包括旅游软件和/或应用程序、载具排程软件和/或应用程序、地图软件和/或应用程序等。对于车辆安排软件和/或应用程序,车辆可以是马、马车、人力车(例如,独轮手推车、脚踏车、三轮车等)、汽车(例如,出租车、公交车、私人汽车或类似物)、列车、地铁、船只、航空器(例如,飞机、直升机、航天飞机、火箭、热气球等)或类似物或其任意组合。
本领域具有通常知识者将理解,当按需服务系统100的组件执行时,该组件可以通过电信号和/或电磁信号来执行。例如,当服务请求者终端130处理例如作出确定、识别或选择目标的任务时,请求者终端130可以操作其处理器中的逻辑电路来处理这样的任务。当服务请求者终端130向服务器110发出服务请求时,服务请求者终端130的处理器可以产生编码该请求的电信号。服务请求者终端130的处理器然后可以将电信号发送到输出端口。如果服务请求者终端130经由有线网络与服务器110通信,则输出端口可以物理地连接到缆线,缆线进一步将电信号传输到服务器110的输入端口。如果服务请求者终端130与服务器110经由无线网络,服务请求者终端130的输出端口可以是将电信号转换为电磁信号的一个或多个天线。类似地,服务提供商终端130可以通过其处理器中的逻辑电路的操作来处理任务,并且经由电信号或电磁信号从服务器110接收指令和/或服务请求。在例如服务请求者终端130、服务提供商终端140和/或服务器110的电子装置内,当其处理器处理指令,发出指令和/或执行动作时,通过电信号进行指令和/或动作。例如,当处理器从存储介质中检索或保存数据时,它可以将电信号发送到存储介质的读/写装置,存储介质可以读取或写入存储介质中的结构化数据。结构化数据可以经由电子装置的总线以电信号的形式传输到处理器。这里,电信号可以指一个电信号、一系列电信号和/或多个离散电信号。
图2是被配置为实现本申请中揭露的特定系统的示例性移动装置的模块图。在一些实施例中,被配置为显示和传送与位置相关的信息的用户终端装置可以是移动装置200。移动装置可以包括但不限于智慧手机、平板计算机、音乐播放器、可携式游戏控制台、GPS接收器、可穿戴计算装置(例如,眼镜、手表等)等。移动装置200可以包括一个或多个中央处理单元(CPU)240、一个或多个图形处理单元(GPU)230、显示器220、内存260、通信单元210、存储器290以及一个或多个输入/输出(I/O)装置250。此外,移动装置200也可以是包括但不限于系统总线或控制器(图2中未示出)的任何其他合适的组件。如图所示。如图2所示,操作系统270(例如,IOS、Android、Windows Phone等)和一个或多个应用程序280可以从存储器290加载到内存260并由CPU 240实现。应用程序280可以包括浏览器或其他移动应用程序,其被配置为接收和处理与用户在移动装置200中输入的查询(例如,位置的名称)有关的信息。乘客/司机可以通过系统I/O装置250获取与一个或多个搜索结果有关的信息,并将该信息提供给服务器110和/或按需服务系统100的其他模块或单元(例如,网络120)。
为了实现上述各种模块、单元及其功能、计算机硬件平台可以用作一个或多个组件的硬件平台(例如,服务器110和/或按需服务系统的其他部分100在图1至图7中描述)。由于这些硬件组件、操作系统和程序语言是共同的,因此可以认为,本领域具有通常知识者可以熟悉这些技术,并且他们可以能够根据本申请描述的技术来提供按需服务中所需的信息。带有用户接口,用户接口的计算机可以用作个人计算机(PC)或其他类型的工作站或终端装置。经过正确程序设计后,可以将带有用户接口,用户接口的计算机用作服务器。可以认为,本领域具有通常知识者也可以熟悉这种类型的计算机装置的结构、程序或一般操作。因此,图中没有描述额外的解释。
图3是根据本申请的一些实施例所示的可以在其上实现服务器110、一个或多个用户终端(例如,一个或多个乘客终端130、司机终端140)的计算装置300的示例性硬件和软件组件的模块图。计算装置300可以被配置为执行本申请中披露的服务器110、乘客终端130和司机终端140的一个或多个功能。例如,处理引擎112可以在计算装置300上实现并且被配置为执行本申请中披露的处理引擎112的功能。
计算装置300可以是通用计算机或专用计算机,两者都可以用于实施本申请的按需服务系统100。如本文所述,计算装置300可以用于实现按需服务系统100的任何组件。例如,处理引擎112可以通过其硬件、软件程序、固件或其组合在计算装置300上实现。尽管仅示出了一个这样的计算机,但是为了方便起见,与在此描述的搜索服务有关的计算机功能可以以分布式的方式在多个类似平台上实现以分配处理负载。
计算装置300,例如可以包括连接到与其连接的网络并从中连接的通讯端口250,以促进数据通信。计算装置300还可以包括处理器320,其以一个或多个处理器的形式用于执行程序指令。示例性计算机平台可以包括内部通信总线310、不同形式的程序内存和数据存储器,例如,硬盘370,只读存储器(ROM)330或随机存取内存(RAM)340,用于各种要由计算机处理和/或传输的数据文件。示例性计算机平台还可以包括存储在ROM 330、RAM340和/或其他类型的非暂时性存储介质中的程序指令,所述程序指令由处理器320执行。本申请的方法和/或流程可以作为程序指令得以实现。计算装置300还可以包括I/O组件360,其支持计算机与其中的其他组件之间的输入/输出。计算装置300也可以通过网络通信接收程序和数据。
计算装置300还可以包括与硬盘通信的硬盘控制器、与按键/键盘通信的按键/键盘控制器、与串行外围装置通信的串行接口控制器、与控制器通信的并行接口控制器、并行外围装置、与显示器通信的显示控制器或类似物或其任意组合。
仅仅为了说明,在计算装置300中仅描述了一个CPU和/或处理器。然而,应该注意的是,本申请中的计算装置300还可以包括多个CPU和/或处理器,因此操作和/或由本申请中描述的一个CPU和/或处理器执行的方法步骤也可以由多个CPU和/或处理器共同或单独执行。例如,如果在本申请中,计算装置300的CPU和/或处理器执行步骤A和步骤B两者,则应该理解,步骤A和步骤B也可以由两个不同的CPU和/或处理器联合执行或单独存储在计算装置200中(例如,第一处理器执行步骤A并且第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。
图4是根据本申请的一些实施例所示的一种示例性处理引擎112的模块图。处理引擎112可以与计算机可读取存储器(例如,存储器150、乘客终端130或司机终端140)通信并且可以执行存储在计算机可读存储介质中的指令。处理引擎112可以包括获取模块410、分割模块420、标注模块430、训练模块440和确定模块450。
获取模块410可以被配置为获取查询。查询可以是历史查询或在线查询。在一些实施例中,获取模块410可以经由网络120获取由与终端装置(例如,乘客终端130)相关联的用户输入的历史查询。在一些实施例中,获取模块410可以获取由与终端装置相关联的用户通过网络120输入的在线查询。
获取模块410还可以被配置为从查询中提取文本。文本提取可以使用多种技术,例如,自然语言处理技术、语音识别技术、图像识别技术、数据库技术等中的一种多种组合。例如,可以使用语音识别技术来分析文件“*.amr”并产生文本(例如,“海/淀/清/华/大/学”)。
获取模块410还可以被配置为经由网络120获取与终端装置(例如,乘客终端130)相关联的用户的搜索记录。搜索记录可以包括历史查询的文本、与终端装置关联的用户选择的POI、与终端装置关联的用户的识别号码信息、查询时间、终端装置的位置信息或类似物或其任意组合。
获取模块410可以被配置为获取训练样本。在一些实施例中,训练样本可以基于标注模块430来产生。在一些实施例中,训练样本可以基于词典或手动操作来产生。
分割模块420可以被配置为基于文本分割将查询中的文本分割成一个或多个子集。查询可以是历史查询或在线查询。文本分割可以使用多种技术,例如,基于模型的技术、分词技术、句子分割技术、自然语言处理技术、神经网络技术(例如,误差反向传播(BP)算法)、词汇衔接技术、词汇链技术、词汇衔接分析技术、潜在语义分析、局部上下文分析、隐藏马尔可夫模型、概率潜在语义分析或类似物或其任意组合。
标注模块430可以被配置以对查询的文本的一个或多个子集中的每一个子集标注属性。训练样本可以基于标注操作来产生。查询可以是历史查询。标注模块430可以分析历史查询与由与用户终端相关联的用户选择的POI的关系。标注模块430可以基于历史查询与POI的关系将标签“where”或标签“what”指定给历史查询的文本的一个或多个子集中的每一个子集。标注模块430可以使用标签“where”或标签“what”来标注历史查询的文本的一个或多个子集中的每一个子集的属性。标注模块430可以自动标注用于该历史查询的文本的一个或多个子集的每一个子集的属性。
训练模块440可以被配置为训练模型。该模型可以是一个CRF模型。训练模块440可以基于一个或多个训练样本来确定CRF模型的参数。训练模块440可以基于不同的样本来训练CRF模型。在一些实施例中,可以从不同地区(例如,北京的样本、纽约市的样本)获取不同的样本。
确定模块450可以被配置为基于CRF模型确定查询的文本的一个或多个子集中的每一个子集的属性。该属性可以是实体属性或空间属性或类似物或其任意组合。该属性有一个标签。例如,空间属性可以具有标签“where”,以及实体属性可以具有标签“what”。在一些实施例中,确定模块450还可以被配置为确定文本的属性序列(其可以包括一个或多个子集)。文本的属性序列可以包括文本的一个或多个子集的部分或全部属性。在一些实施例中,确定模块450可以确定文本的两个或多个属性序列(例如,第一属性序列、第二属性序列)。在一些实施例中,确定模块450可以进一步确定文本拥有所确定的属性序列的概率。
应该注意的是,上面关于处理引擎112的描述是为了说明的目的而提供的,并且不旨在限制本申请的范围。显然,对于本领域具有通常知识者来说,在本申请的教示下可以有许多变化和修改。然而,这些变化和修改不脱离本申请的保护范围。例如,训练模块440可以包括校正单元(图中未示出)以校正训练的CRF模型。又例如,确定模块450被用于分割文本。类似的修改应该落入本申请的范围内。
图5是根据本申请的一些实施例所示的一种用于确定查询的文本的一个或多个子集中的每一个子集的属性的示例性流程500的流程图。在一些实施例中,用于确定查询的文本的一个或多个子集中的每一个子集的属性的流程500可以在如图1所示的系统100中实施。例如,流程500可以在用户终端(例如,乘客终端130、司机终端140)和/或服务器110中实施。流程500还可以由存储在存储器150中的一个或多个指令实施,并且由处理引擎112调用和/或执行。
在505中,处理引擎112(例如,获取模块410)可以通过网络接收来自终端装置的查询。终端装置可以是乘客终端130或司机终端140。查询可以是在线查询。如本文所述,在线查询可以是用户通过终端装置(例如,乘客终端130、司机终端140)输入的查询,其可以经由网络120发送到服务器110。查询可以是文本、音频内容、图形、图像、视频内容或类似物或其任意组合的格式。例如,用户可以通过终端装置(例如,乘客终端130、司机终端140)内置输入法(例如,SougouTM输入法)来输入文本。查询可以是由与乘客终端130相关联的用户(经由,例如乘客终端130的麦克风)输入的指示用户想要去的位置的语音。该语音可以是“*.amr”形式。服务器110(或乘客终端130)可以基于音讯文件确定内容并相应地产生文本。
在510中,处理引擎112(例如,获取模块410)可以从查询中提取文本。文本提取可以使用多种技术,例如,自然语言处理技术、语音识别技术、图像识别技术、数据库技术或类似物或其任意组合。例如,可以使用语音识别技术来分析“*.amr”文档并产生文本(例如,“海/淀/清/华/大/学”)。
在520中,处理引擎112(例如,分割模块420)可以确定文本的一个或多个子集。可以使用多种技术来确定文本的一个或多个子集,包括例如,基于模型技术、分词技术、句子分割技术、自然语言处理技术、神经网络技术(例如,误差反向传播(BP)算法)、词汇衔接技术、词汇链技术、词汇衔接分析技术、潜在语义分析、局部上下文分析、隐马尔可夫模型、概率潜在语义分析或类似物或其任意组合。
在530中,处理引擎112(例如,获取模块410)可以获取条件随机域(CRF)模型。CRF模型可以是一个经训练的CRF模型。也就是说,CRF模型的参数已经确定。
CRF模型可以与区域(例如,地理区域、地区、城市)、时间段(例如,高峰时间)或类似物或其任意组合相关联。例如,CRF模型可以与北京有关,该CRF模型为基于与北京有关的训练样本进行训练获得的。如果查询由服务器110确定为与北京相关联(例如,该查询与搜索北京的POI有关),则可以获得与北京相关联的CRF模型。在一些实施例中,CRF模型可以基于图6中所示的示例性流程600训练获取。
在540中,处理引擎112(例如,确定模块450)可以基于CRF模型和文本的一个或多个子集中的每一个子集来确定文本的一个或多个子集中的每一个子集的属性。文本的一个或多个子集中的每一个子集的属性可以包括空间属性和/或实体属性。这里使用的术语“空间属性”通常是指特定的空间范围(例如,住宅小区、道路)。这里使用的术语“实体属性”通常是指特定地点(例如,商店的名称、建筑物的名称或大学的名称)。处理引擎112可以使用标签“where”来标注空间属性。处理引擎112可以使用标签“what”来标注实体属性。例如,处理引擎112可以接收包括文本“海淀区清华大学”的查询。文本可以分为子集“海淀区”和子集“清华大学”。子集“海淀区”为空间属性(可以标注为“where”)。子集“清华大学”为实体属性(可以标注为“what”)。
在一些实施例中,处理引擎112(例如,确定模块450)还可以确定文本(其包括一个或多个子集)的属性序列。文本的属性序列可以包括文本的一个或多个子集的部分或全部属性。在一些实施例中,处理引擎112可以为文本确定两个或多个属性序列(例如,第一属性序列、第二属性序列)。例如,对于文本“海淀区清华大学”,处理引擎112可以确定空间属性为“海淀区”(标注为“where”),实体属性为“清华大学”(标注为“what”)。“where+what”为文本“海淀区清华大学”的第一个属性序列。又例如,对于同一文本“海淀区清华大学”,处理引擎112还可以确定空间属性为“海淀区”(标注为“where”)和空间属性为“清华大学”(标注为“where”)。“where+where”可以是文本“海淀区清华大学”的第二属性序列。因此,对于同一文本,处理引擎112可以确定两个属性序列,即“where+what”和“where+where”。
在一些实施例中,处理引擎112(例如,确定模块450)可以进一步确定文本的属性序列的概率。例如,处理引擎可以确定第一属性序列“where+what”的概率为0.8,并且第二属性序列“where+where”的概率为0.2。在一些实施例中,处理引擎112可以基于训练样本(例如,与用户选择的POI相关联的文本的属性序列的百分比)来确定属性序列的概率。
应该注意的是,上述处理引擎112是为了说明的目的而提供的,并且不旨在限制本申请的范围。显然,对于本领域具有通常知识者来说,在本申请的教示下可以有许多变化和修改。然而,这些变化和修改不脱离本申请的保护范围。在一些实施例中,可以减少或增加一些步骤。例如,510可以被省略。查询可以是文本形式,并且可以在没有文本提取的情况下获取文本。又例如,520可以被省略。在一些实施例中,文本可以不需要被分割(例如,“中国”或“北京”)。类似的修改应该落入本申请的范围内。
图6是根据本申请的一些实施例所示的一种用于确定为查询的文本的一个或多个子集中的每一个子集的确定属性的CRF模型的示例性流程600的流程图。流程600可以用于训练在上述流程500中使用的CRF模型。在一些实施例中,用于确定CRF模型的流程600可以在如图1所示的系统100中实施。例如,流程600可以在用户终端(例如,乘客终端130,司机终端140)和/或服务器110中实现。流程600可以由存储在存储器150中的一个或多个指令实现,并且可以由处理引擎112调用和/或执行。
在610中,处理引擎112可以获取初始CRF模型。训练模块440可以首先通过初始化该初始CRF模型的参数来初始化所获取的该初始CRF模型。例如,训练模块440可以将多个值指定给该初始CRF模型的参数。
CRF模型可以将T个标签指定给输入查询的文本的一个或多个子集中的每一个子集。标注的属性变量可以表示为:
Figure BDA0002303712700000161
其中,y(i)指查询的文本的属性序列,i指属性序列的序号,yt是查询的文本的特定子集的标签(例如,属性的标签)。
通常,每个属性变量可以假定为从一组分类值中选择的分类值。CRF模型的条件概率p(y|x)表示给定特定输入序列为给定属性序列y的概率,表示为:
Figure BDA0002303712700000162
其中,x(i)表示查询的文本,i表示查询的序列号,xt表示输入查询文本的特定子集。条件概率可以表示为:
Figure BDA0002303712700000163
其中,fk(yt,yt-1,xt)指特征函数,λk指权重参数,K是指特征函数的个数。Z(x)指将上述表达式的指数形式归一化以对应于概率分布的分割函数,其可以被表示为:
Figure BDA0002303712700000164
在620中,处理引擎112可以获取多个训练样本。训练样本可以包括基于历史服务订单产生的一个或多个样本。在一些实施例中,可以基于特定区域(例如,地理区域、地区、城市)中的历史服务订单、特定时间段(例如,高峰时间)或类似物或其任意组合来产生训练样本。例如,一个或多个历史样本可以基于北京过去两个月的高峰时段的历史服务订单产生。在一些实施例中,训练样本可以包括至少一个历史样本(例如,下文的表1)。在一些实施例中,历史样本可以基于图7中所示的示例性流程700产生。
在630中,处理引擎112可以确定特征模板。特征模板可以被配置为描述查询的文本的特征。查询的文本的特征可以包括精细化特征、泛化特征、个性化特征或类似物或其任意组合。
在一些实施例中,特征模板可以是unigram模板或bigram模板。例如,特征模板可以是如下描述的unigram模板:
#Unigram
U00:%x[-1,0]
U01:%x[0,0]
U02:%x[1,0]
U03:%x[-1,0]/%x[0,0]
U04:%x[0,0]/%x[1,0]
U05:%x[-1,0]/%x[1,0]
U10:%x[-1,1]
U11:%x[0,1]
U12:%x[1,1]
U13:%x[-1,1]/%x[0,1]
U14:%x[0,1]/%x[1,1]
U15:%x[-1,1]/%x[1,1].
“U00:%x[-1,0]”可以表示当前词的前一个词。“U01:%x[0,0]”可以表示当前词。“U02:%x[1,0]”可以表示当前词的后一个词。“U03:%x[-1,0]/%x[0,0]”可以表示当前词与当前词的前一个词的关系。“U04:%x[0,0]/%x[1,0]”可以表示当前词与当前词的后一个词的关系。“U05:%x[-1,0]/%x[1,0]”可以表示当前词的前一个词与当前词的后一个词的关系。“U10:%x[-1,1]”可以表示当前词的前一个词的特征。当前词的前一个词的特征可以是数字、字母、字符大小、前缀、后缀等。“U11:%x[0,1]”可以表示当前词的特征。当前词的特征可以是数字、字母、字符大小、前缀、后缀等。“U12:%x[1,1]”可以表示当前词的后一个词的特征。当前词的后一个词的特征可以是数字、字母、字符大小、前缀、后缀等。“U13:%x[-1,1]/%x[0,1]”可以表示当前词的前一个词的特征与当前词的特征的关系。“U14:%x[0,1]/%x[1,1]”可以表示当前词的特征与当前词的后一个词的特征的关系。“U15:%x[-1,1]/%x[1,1]”可以表示当前词的前一个词的特征与当前词的后一个词的特征的关系。
精细化特征包括当前词的特征、当前词的前一个词的特征、当前词的后一个词的特征、当前词和当前词的前一个词的关系、当前词与当前词的后一个词的关系,当前词的前一个词与当前词的后一个词的关系,当前词的特征与当前词的前一个词的特征的关系、当前词的特征与当前词的后一词的特征的关系或当前词的前一个词的特征与当前词的后一个词的特征的关系或类似物或其任意组合。
精细化特征可以包括用于标注查询的详细信息。例如,训练样本可以包括许多大学名称。训练样本中的大学名称可以包括“北京大学”、“北京交通大学”、“北京科技大学”等。对于包括“北京大学”文本的查询,如果CRF模型仅依赖当前词的特征,却忽略当前词与当前词的后一个词的关系,则CRF模型可以确定“北京”为空间属性,因为“北京”是一个城市,“大学”是一个实体属性。但是,如果CRF模型应用了精细化特征,则CRF模型可以确定“北京”与“大学”的关系,并且确定“北京大学”不应该被分割,并且CRF模型可以确定“北京大学”是一个实体属性。因此,包括精细化特征的CRF模型可以更准确地为查询的文本的一个或多个子集中的每一个子集确定属性。
泛化特征可以包括词性、数字、字母、字符大小、前缀、后缀或类似物或其任意组合。泛化特征可以包括在CRF模型上的查询的足够多的特征以增强CRF模型的泛化能力。CRF模型的泛化能力指CRF模型能够识别不在训练样本中的一些新查询或新文本的特征的能力。
例如,训练样本可以包括大学的许多建筑物名称。训练样本中大学的建筑物名称可以包括“清华大学1号楼”、“清华大学2号楼”和“清华大学3号楼”。用户可以输入包括文本“清华大学4号楼”的查询。由于CRF没有定义数字“4”的特征或“清华大学4号楼”的特征,CRF模型可能无法正确确定“清华大学4号楼”的属性。但是,如果CRF模型最初定义了数字特征,CRF模型可以确定“清华大学4号楼”类似于“清华大学1号楼”、“清华大学2号楼”和“清华大学3号楼”,并确定“清华大学4号楼”属于实体属性。又例如,训练样本可以包含许多大厦名称。训练样本中的大厦名称可以只包括“国际贸易大厦A”、“国际贸易大厦B”和“国际贸易大厦C”。用户输入包括文本“国际贸易大厦D”的查询,由于CRF没有定义大写字母的特征,CRF模型可能无法正确确定“国际贸易大厦D”的属性。但是,如果CRF模型最初定义了大写字母的特征,则CRF模型可以确定“国际贸易大厦D”类似于“国际贸易大厦A”、“国际贸易大厦B”和“国际贸易大厦C”,并且正确地确定“国际贸易大厦D”的属性。因此,包括广义特征的CRF模型可以确定新查询的文本的一个或多个子集的属性。
个性化特征可以包括与终端装置相关联的用户有关的识别号码信息、查询时间、查询频率、终端装置的位置信息或类似物或其任意组合。例如,用户在一段时间(例如,上午11点30分
Figure BDA0002303712700000181
下午12点30分)内输入的查询的文本的一个或多个子集(例如,餐馆的名称或商店的名称)可以为实体属性。包括个性化特征的CRF模型可以将时间信息确定为个性化特征。
又例如,用户A可以输入包括文本“中关村”的查询。用户A可能频繁地选择POI“中关村地铁”,但可能偶尔选择POI“中关村大厦”。对于用户A,由于用户A选择POI“中关村地铁”比选择其他POI更频繁,CRF模型可以确定“中关村”更可能为空间属性。用户B可以输入包括相同文本“中关村”的查询。然而,用户B可能经常选择POI“中关村大厦”,但可能偶尔选择POI“中关村地铁”。对于用户B,由于用户B选择POI“中关村大厦”比选择其他POI更频繁,CRF模型可以确定“中关村”更可能为实体属性。因此,包括个性化特征的CRF模型可以更准确地确定由不同用户输入的不同查询的相同文本的一个或多个子集中的每一个子集的属性。
在640中,处理引擎112可以基于多个训练样本和特征模板来确定一个或多个特征函数。特征函数可以以函数形式表示多个训练样本的特征。特征函数可以是转换特征函数(transition Feature Function)和释放特征函数(Emission Feature Function)(也称为状态特征函数)。转换特征函数可以是表示是否发生转换(yt-1=i,yt=j)的二元函数。例如,转换函数可以被表示为:
Figure BDA0002303712700000191
其中,ψ是特定函数或值(例如,1),i指标签(例如,“where”或“what”),以及j指标签(例如,“where”或“what”)。
释放特征函数可以是二元函数,其表示依赖于观察的特征是否与状态i同时发生。例如,释放特征函数可以被描述为:
Figure BDA0002303712700000192
其中,o指一元特征。在一些实施例中,
Figure BDA0002303712700000193
可以是关于x的任意函数。函数的不同形式可以表示查询的不同特征。
在650中,处理引擎112(例如,训练模块440)可以基于一个或多个特征函数训练初始CRF模型以产生经训练的CRF模型。
在一些实施例中,可以基于多个训练样本的训练操作来训练初始CRF模型。例如,所述多个样本可由
Figure BDA0002303712700000194
表示,其中,N表示该多个训练样本的数量。多个训练样本可以作为初始CRF模型的输入以确定初始CRF模型的参数。经训练的CRF模型可以基于确定的CRF模型参数来确定。
在一些实施例中,处理引擎112可以应用最大可能性估计来获取CRF模型参数。该可能性函数可以表示为:
Figure BDA0002303712700000201
其中,Λ={λk}指权重参数,i指训练样本的序号,N指多个训练样本的数量,y(i)指训练样本的属性序列,以及x(i)是指训练样本的文本。
最大可能性估计可以使用可能性函数来排列Λ={λk}的可能值。具体而言,最大可能性估计可以确定Λ={λk}的哪个值应该是确定可能性函数的最大值。可能性函数的最大值可以表示为:
Λmax=argmaxΛL(Λ) (8).
因此,可能性函数的最大值的参数Λ={λk}可以确定尽可能接近经验分布的模型。
在一些实施例中,训练模块440可以应用一个或多个算法通过迭代来训练CRF模型。算法可以包括随机梯度下降算法、最大化(Maximization,EM)算法、维特比算法、改进的迭代缩放(Improved Iterative Scaling,IIS)算法、通用迭代缩放(GeneralizedIterative Scaling,GIS)或类似物或其任意组合。
应该注意的是,上述流程600是为了说明的目的而提供的,并且不旨在限制本申请的范围。显然,对于本领域具有通常知识者来说,在本申请的教示下可以有许多变化和修改。然而,这些变化和修改不脱离本申请的保护范围。在一些实施例中,CRF模型的数量可以不受限制。例如,按需服务系统100可以提供两个或更多个CRF模型,其被专门用于确定基于不同的城市进行查询的文本的一个或多个子集中的每一个子集的属性。用户可以输入与北京有关的查询。按需服务系统100可以调用与北京有关的第一类型CRF模型。用户可以输入与上海有关的查询。按需服务系统100可以调用与上海相关联的第二类型的CRF模型。又例如,在650之后可以存在CRF模型的修正操作。类似的修改应该落入本申请的范围内。
图7是根据本申请的一些实施例所示的一种用于确定训练样本的示例性流程700的流程图。在一些实施例中,流程600中训练初始CRF模型使用的训练样本可以包括至少一个根据图7所示的历史训练样本的示例性流程700产生的历史训练样本。在一些实施例中,用于确定样本的流程700可以在系统100(例如,服务器110)中实现。在一些实施例中,流程700可以由存储在存储器150中的一个或多个指令实现,并且由处理引擎112调用和/或执行的。在一些实施例中,流程700可以在用户终端和/或服务器中实现,并且确定的或产生的训练样本可以被传输到处理引擎112或系统100的另一合适组件以进行进一步处理。
训练样本可以包括一个或多个历史样本。训练样本可以基于相同的方法或不同的方法来确定。例如,历史样本可以基于字典和一些手动操作来确定。可选地或另外地,历史样本可以通过图7中所示的示例性流程自动标注。
在710中,处理引擎112(例如,获取模块410)可以获取历史查询。处理引擎112可以通过网络120从与终端装置相关联的用户的搜索记录中获取历史查询。查询可以包括通过终端装置从用户接收的信息,例如,文本(例如“海淀区”)、声音、图像或类似物或其任意组合。查询还可以包括地理位置信息(例如,终端装置的位置信息、查询的请求者的出发地点、与历史查询相关联的POI)。查询还可以包括时间信息(例如,与查询相关的出发时间是上午7:00、查询传输到处理引擎112的时间)。查询还可以包括用户信息(例如,查询的请求者的年龄为50岁)或类似物或其任意组合。
在一些实施例中,历史查询可以存储在数据库(例如,存储器150中的数据库)中或从另一个装置取回。在一些实施例中,处理引擎112可以在710中获取多个历史查询。多个历史查询可以是在特定时间段(例如,在过去一个月、过去一周)的历史查询或与特定的位置或区域(例如,北京、上海、纽约)相关联的查询。
在720中,处理引擎112(例如,获取模块410)可以从历史查询中提取文本。文本提取可以使用多种技术,例如,自然语言处理技术、语音识别技术、图像识别技术、数据库技术或类似物或其任意组合。例如,用户可以向处理引擎112输入语音,并且基于用户终端内建语音识别技术的语音搜索功能(例如,Google VoiceTM)可以将语音转换为文本。
文本可以包括任何语言的文字、数字、字符或其组合,例如中文、日文、英文或类似物或其任意组合。在一些实施例中,文本可以是汉字和字母的组合,例如,“海/淀/区/爱/迪/生/路/3/号”(即海淀区爱迪生路No.3)。“海”是一个字,“海/淀”是一个词。文本可能有或没有词边界标记,如空格。例如,“海/淀”和“区”这两个词在中文文本“海/淀/区/爱/迪/生/路/3/号”中没有边界标记。又如,英文文本中“No.3Edison Road Haidian District”中的单词“Haidian”和单词“District”之间存在空格。
在一些实施例中,历史查询可以是来自请求者的语音记录,并且语音识别技术(例如,隐马尔可夫算法)可以用于将记录转换为文本。
在730中,处理引擎112(例如,分段模块420)可以确定历史查询的文本的至少一个子集。文本分割可以使用多种技术,例如,基于模型的技术、分词技术、句子分割技术、自然语言处理技术、神经网络技术(例如,误差反向传播(BP)算法)、词汇衔接技术、词汇链技术、词汇衔接分析技术、潜在语义分析、局部上下文分析、隐藏马尔可夫模型、概率潜在语义分析或类似物或其任意组合。
在一些实施例中,文本分割可以基于CRF分割模型。例如,可以在CRF分割模型中使用4标签。4标签可以是B(即,开始)、E(即,结束)、M(即,中间)、S(即,单个)。4标签可以用来标注文本的字符,例如,
根据CRF分割模型,可以获得“海/淀/”、“区/”、“爱/迪/生/路/”和“3/号/”四个子集。
在740中,处理引擎112(例如,获取模块410)可以获取与历史查询相关联的POI。用户可以输入查询,该查询可以通过网络120由处理引擎112接收。处理引擎112可以产生包含一个或多个POI的搜索结果并发送到终端装置。终端装置可以将搜索结果显示给用户。用户可以从终端装置处的一个或多个POI中选择一个POI。所选择的POI可以被递送给处理引擎112,处理引擎112可以进一步将所选择的POI与历史查询相关联。处理引擎112(例如,获取模块410)可以获取与历史查询相关联的POI。
POI可以包括地址信息、地理位置信息、周围信息、属性信息(例如,空间属性信息、实体属性信息)或类似物或其任意组合。例如,北京的POI可能是一所大学,例如“清华大学”。POI“清华大学”可以包括大学的全部地址、地址的空间属性以及地址的实体属性。例如,POI“清华大学”的地址信息可以是“北京市海淀区清华大学”,地址的空间属性可以包括“北京市”和“海淀区”。地址的实体属性可以包括“清华大学”。POI的信息可以被存储在存储器150中或从可以被处理引擎112存取的其他存储器(例如,终端装置130)中检索。
在一些实施例中,POI的文本可以被分割成至少一个子集。例如,POI为“北京市海淀区清华大学”,POI可以分为子集1“北京市”,子集2“海淀区”和子集3“清华大学”。分割技术可以与上述730中使用的分割技术相同。
在750中,处理引擎112(例如,标注模块430)可以根据与历史查询相关联的POI确定历史查询的文本的至少一个子集的属性。该属性可以是空间属性(例如,标注为“where”)、实体属性(例如,标注为“what”)或类似物或其任意组合。在一些实施例中,标注模块430可以使用标注空间属性的“where”和实体属性的“what”来标注文本的至少一个子集的属性。
例如,POI可以是“清华大学”。POI“清华大学”的地址可以是“北/京/市/海/淀/区/清/华/大/学”(或译成英文“Beijing City Haidian District Tsinghua University”)。POI文本的分割可以是“北/京/市//海/淀/区//清/华/大/学”,词边界标签为“//”。详细的空间属性地址可以是“北京市”即,北/京/市)和“海淀区(即,海/淀/区)”。地址的实体属性可以是“清华大学”(即,清/华/大/学)。在一些实施例中,用户可以输入查询,其文本可以是“海淀区清华大学”。用户可以从包括一个或多个POI的搜索结果中选择POI“清华大学”。
分割模块420可以在730中将文本“海淀区清华大学”划分为一个或多个子集。例如,在730中,分割模块420可以将文本“北京市海淀区清华大学”划分为子集1“北京市”,子集2“海淀区”和子集3“清华大学”。由于空间属性为“北京市”和“海淀区”,实体属性为“清华大学”,在740中可以获取与历史查询相关联的POI(例如,“北京市海淀区清华大学”)。子集1“海淀区”可以是“北京市”和/或“海淀区”的空间属性的一部分,标注模块430可以将子集1“海淀区”标注为“where”。子集2“清华大学”可以是“清华大学”的实体属性的一部分,并且标注模块430可以将子集2“清华大学”标注为“what”。又例如,分割模块420可以将文本“海淀区清华大学”划分为子集1“海淀”和子集2“区清华大学”。子集1“海淀”在“北京市海淀区清华大学”的空间属性内,标注模块430可以使用标签“where”标注子集1“海淀”。子集2“区清华大学”不属于“北京市海淀区清华大学”的实体属性部分,标注模块430可能不会对子集2进行标注。也就是说,标注模块430可以使用标签“where”以标注“海淀”,“海淀”为一个标注的样本。标注模块430可以确定文本的至少一个子集的属性。因此,标注模块430可以使用标签“where”和/或标签“what”来自动标注文本的至少一个子集的属性。
又例如,POI可以是“回龙观地铁站”。POI“回龙观地铁站”的完整地址可以是“北/京/市/海/淀/区//回/龙/观/地/铁/站”(或翻译成英文“Beijing City Haidian DistrictHuilongguan Subway Station”)。标有“where”的地址的空间属性可以是740中获取的“北京市”、“海淀区”和“回龙观”。标有“what”的地址的实体属性可以是740中获取的“地铁站”。在一些实施例中,用户可以输入查询,其文本可以是“回龙观”。用户可以从包括一个或多个POI的搜索结果中选择POI为“回龙观地铁站”。分割模块420可以在730中将文本“回龙观”分成仅一个子集“回龙观”。唯一的一个子集“回龙观”可以是“北京市”、“海淀区”和“回龙观”的空间属性的一部分,并且标注模块430可以使用标签“where”来标注唯一的一个子集“回龙观”。
又例如,POI“回龙观大厦”的完整地址可以是“北京市海淀区回龙观大厦”。“北京市海淀区回龙观大厦”中用“where”标注的空间属性可以是在740中获取的“北京市”、“海淀区”。“北京市海淀区回龙观大厦”中用“what”标注的实体属性可以是740中获取的“回龙观大厦”。在一些实施例中,用户可以输入查询,其中的文本也可以是在710中的“回龙观”。分割模块420可以在730中将查询“回龙观”的文本分段为仅一个子集“回龙观”。唯一的一个子集“回龙观”可以是“北京市海淀区回龙观大厦”的实体属性的一部分。在这种情况下,即使相同的查询文本“回龙观”,标注模块430可以使用标签“what”而不是标签“where”来标注唯一的一个子集“回龙观”。因此,对于同一个查询的文本,不同的用户可以选择不同的POI,使得文本的一个或多个子集中的每一个自己可以使用不同的标签来标注。
在760中,处理引擎112(例如,标注模块430)可以根据所确定的历史查询的文本的至少一个子集的属性来产生历史训练样本。例如,历史查询的文本可以是“北京市海淀区清华大学”。
历史训练样本可包括在720中提取的文本,在730中确定的文本的至少一个子集,在750中确定的文本的至少一个子集的对应属性(例如,标签“where”或标签“what”)或类似物或其任意组合。以“北京市海淀区清华大学”为例,可以确定历史查询文本的三个子集和相应的属性,如表1所示。
表1:示例性的历史样本
文本的子集 子集的属性 标签
北京市 空间属性 where
海淀区 空间属性 where
清华大学 实体属性 what
历史训练样本可以被存储在按需服务系统100中的存储器150或其他存储器(例如,乘客终端130或司机终端140)中。训练模块440可以基于图6描述的历史训练样本来训练初始CRF模型。
应该注意的是,上述处理引擎112是为了说明的目的而提供的,并且不旨在限制本申请的范围。显然,对于本领域具有通常知识者来说,在本申请的教示下可以有许多变化和修改。然而,这些变化和修改不脱离本申请的保护范围。在一些实施例中,可以减少或增加一些步骤。例如,可以省略720。查询可以是文本形式,并且可以在没有文本提取的情况下获取文本。又例如,可以省略730。在一些实施例中,文本可能不需要被分割(例如,“中国”)。在其他一些实施例中,文本可以用已被分割的形式来获得。类似的修改应该落入本申请的范围内。
为了实现本申请中描述的各种模块、单元及其功能,可以将计算机硬件平台用作这里描述的一个或多个组件的硬件平台。具有用户接口,用户接口元素的计算机可用于实现个人计算机(PC)或任何其他类型的工作站或终端装置。如果适当程序设计,计算机也可以充当服务器。
上文已对基本概念做了描述,显然,对于本领域具有通常知识者来讲,上述申请揭露仅作为示例,而并不构成对本申请的限制。虽然此处并没有明确说明,本领域具有通常知识者可能会对本申请进行各种变更、改良和修改。该类变更、改良和修改在本申请中被建议,并且该类变更、改良、修改仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特性。因此,应强调并注意的是,本说明书中在不同位置两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特性可以进行适当的组合。
此外,本领域具有通常知识者可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改良。相应地,本申请的各个态样可以完全由硬件执行、可以完全由软件(包括韧体、常驻软件、微代码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读取媒体中的计算机产品,该产品包括计算机可读取程序编码。
计算机可读取讯号媒体可包括一个内含有计算机程序编码的传播数据讯号,例如在基带上或作为载波的一部分。所述传播讯号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读取讯号媒体可以是除计算机可读存储介质之外的任何计算机可读取媒体,该媒体可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读取讯号媒体上的程序编码可以通过任何合适的介质进行传播,包括无线电、缆线、光纤电缆、RF、或类似介质、或任何上述介质的合适组合。
本申请各部分操作所需的计算机程序码可以用任意一种或多种程序语言编写,包括面向对象程序设计语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化程序设计语言如C语言、Visual Basic、Fortran2003、Peri、COBOL 2002、PHP、ABAP,动态程序设计语言如Python、Ruby和Groovy,或其他程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机上运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,例如,局域网络(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云端计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述揭露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于揭露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或行动载具上安装所描述的系统。
同理,应当注意的是,为了简化本申请揭示的表述,从而帮助对一个或多个申请实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种揭示方法并不意味着本申请对象所需要的特征比权利要求中涉及的特征多。实际上,实施例的特征要少于上述揭露的单个实施例的全部特征。

Claims (23)

1.一种系统,包括:
至少一个计算机可读存储介质,包括一组用于管理服务供应的指令;以及
与所述至少一个存储介质通信的至少一个处理器,其中,当执行所述指令时,所述至少一个处理器用于:
通过网络接收来自终端装置的查询;
运行所述至少一个处理器中的逻辑电路以从所述查询中提取文本;
运行所述至少一个处理器中的所述逻辑电路以确定所述文本的一个或多个子集;
运行所述至少一个处理器中的所述逻辑电路以获取经训练的条件随机域(CRF)模型;以及
运行所述至少一个处理器中的所述逻辑电路以基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
2.如权利要求1所述的系统,其中,所述文本的一个或多个子集中的每一个子集的属性包括空间属性或实体属性中的至少一个。
3.如权利要求2所述的系统,其中,所述文本的一个或多个子集的属性包括具有第一标签的至少一个空间属性。
4.如权利要求3所述的系统,其中,所述文本的一个或多个子集的属性进一步包括具有第二标签的至少一个实体属性。
5.如权利要求1所述的系统,其中,所述至少一个处理器进一步用于确定所述文本的一个或多个子集中的每一个子集拥有所确定的属性的概率。
6.如权利要求1所述的系统,其中,所述经训练的CRF模型根据用于产生CRF模型的流程来产生,所述流程包括:
获取初始CRF模型;
获取多个训练样本;
确定特征模板;
基于所述多个训练样本和所述特征模板,确定一个或多个特征函数;以及
基于所述一个或多个特征函数训练所述初始CRF模型以产生所述经训练的CRF模型。
7.如权利要求6所述的系统,其中,所述多个训练样本包括历史样本,所述历史样本根据用于产生所述历史样本的流程来产生,所述流程包括:
获取历史查询;
从所述历史查询中提取文本;
确定所述历史查询的文本的至少一个子集;
获取与所述历史查询相关联的兴趣点;
根据与所述历史查询相关联的兴趣点来确定所述历史查询的文本的至少一个子集的属性;以及
根据所确定的属性和所述历史查询的文本的至少一个子集来产生所述历史样本。
8.如权利要求6所述的系统,其中,所述特征模板包括精细化特征、泛化特征或个性化特征中的至少一个。
9.如权利要求8所述的系统,其中,所述精细化特征包括当前词的特征、所述当前词的前一个词的特征、所述当前词的后一个词的特征、所述当前词和所述当前词的前一个词的关系、所述当前词与所述当前词的后一个词的关系、所述当前词的前一个词与所述当前词的后一个词的关系、所述当前词的特征与所述当前词的前一个词的特征的关系、所述当前词的特征与所述当前词的后一词的特征的关系或所述当前词的前一个词的特征与所述当前词的后一个词的特征的关系中的至少一个。
10.如权利要求8所述的系统,其中,所述泛化特征包括数字、字母、字符大小、前缀或后缀中的至少一个。
11.如权利要求8所述的系统,其中,所述个性化特征包括与所述终端装置相关联的用户相关的识别号码信息、查询时间或所述终端装置的位置信息中的至少一个。
12.一种在至少一个装置上实施的方法,每个装置具有至少一个处理器、存储器和连接到网络的通信平台,所述方法包括:
通过所述网络接收来自终端装置的查询;
从所述查询中提取文本;
确定所述文本的一个或多个子集;
获取经训练的条件随机域(CRF)模型;以及
基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
13.如权利要求12所述的方法,其中,所述文本的一个或多个子集中的每一个子集的属性包括空间属性或实体属性中的至少一个。
14.如权利要求13所述的方法,其中,所述文本的一个或多个子集的属性包括具有第一标签的至少一个空间属性。
15.如权利要求13所述的方法,其中,所述文本的一个或多个子集的属性进一步包括具有第二标签的至少一个实体属性。
16.如权利要求12所述的方法,进一步包括确定所述文本的一个或多个子集中的每一个子集拥有所确定的属性的概率。
17.如权利要求12所述的方法,其中,所述经训练的CRF模型根据用于产生CRF模型的流程来产生,所述流程包括:
获取初始CRF模型;
获取多个训练样本;
确定特征模板;
基于所述多个训练样本和所述特征模板,确定一个或多个特征函数;以及
基于所述一个或多个特征函数训练所述初始CRF模型以产生所述经训练的CRF模型。
18.如权利要求17所述的方法,其中,所述多个训练样本包括历史样本,所述历史样本根据用于产生所述历史样本的流程来产生,所述流程包括:
获取历史查询;
从所述历史查询中提取文本;
确定所述历史查询的文本的至少一个子集;
获取与所述历史查询相关联的POI;
根据与所述历史查询相关联的POI来确定所述历史查询的文本的至少一个子集的属性;以及
根据所确定的属性和所述历史查询的文本的至少一个子集来产生所述历史样本。
19.如权利要求17所述的方法,其中,所述特征模板包括精细化特征、泛化特征或个性化特征中的至少一个。
20.如权利要求19所述的方法,其中,所述精细化特征包括当前词的特征、所述当前词的前一个词的特征、所述当前词的后一个词的特征、所述当前词和所述当前词的前一个词的关系、所述当前词与所述当前词的后一个词的关系、所述当前词的前一个词与所述当前词的后一个词的关系、所述当前词的特征与所述当前词的前一个词的特征的关系、所述当前词的特征与所述当前词的后一词的特征的关系或所述当前词的前一个词的特征与所述当前词的后一个词的特征的关系中的至少一个。
21.如权利要求19所述的方法,其中,所述泛化特征包括数字、字母、字符大小、前缀或后缀中的至少一个。
22.如权利要求19所述的方法,其中,所述个性化特征包括与所述终端装置相关联的用户相关的识别号码信息、查询时间或所述终端装置的位置信息中的至少一个。
23.一种非暂时性计算机可读存储介质,包括用于提供按需服务的至少一组指令,其中,当由处理器执行时,所述至少一组指令指示所述处理器执行以下动作:
通过网络接收来自终端装置的查询;
从所述查询中提取文本;
确定所述文本的一个或多个子集;
获取经训练的条件随机域(CRF)模型;以及
基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
CN201780091643.3A 2017-06-08 2017-06-08 使用条件随机域模型确定文本属性的系统及方法 Pending CN110709828A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/087572 WO2018223331A1 (en) 2017-06-08 2017-06-08 Systems and methods for text attribute determination using conditional random field model

Publications (1)

Publication Number Publication Date
CN110709828A true CN110709828A (zh) 2020-01-17

Family

ID=64566283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780091643.3A Pending CN110709828A (zh) 2017-06-08 2017-06-08 使用条件随机域模型确定文本属性的系统及方法

Country Status (3)

Country Link
US (1) US20190362266A1 (zh)
CN (1) CN110709828A (zh)
WO (1) WO2018223331A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033200A (zh) * 2021-05-27 2021-06-25 北京世纪好未来教育科技有限公司 数据处理方法、文本识别模型的生成方法和文本识别方法
CN115660424A (zh) * 2022-10-28 2023-01-31 国网四川省电力公司 一种基于gis的灾害要素分析预警系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191107B (zh) * 2018-10-25 2023-06-30 北京嘀嘀无限科技发展有限公司 使用标注模型召回兴趣点的系统和方法
CN109857864A (zh) * 2019-01-07 2019-06-07 平安科技(深圳)有限公司 文本情感分类方法、装置、计算机设备及存储介质
CN111858921B (zh) * 2019-09-24 2024-05-03 北京嘀嘀无限科技发展有限公司 兴趣点查询方法、装置以及电子设备
KR102529987B1 (ko) * 2020-01-30 2023-05-09 (주)나라지식정보 Crf 기반 한자 문헌의 문장 및 어구 식별 장치 및 방법
CN112925995B (zh) 2021-02-22 2022-01-28 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN113569950B (zh) * 2021-07-28 2024-05-28 大唐环境产业集团股份有限公司 电站设备故障监测模型生成方法、系统及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149732A (zh) * 2006-09-19 2008-03-26 阿尔卡特朗讯公司 由计算机使用的从自然语言文本开发本体的方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
US20120254143A1 (en) * 2011-03-31 2012-10-04 Infosys Technologies Ltd. Natural language querying with cascaded conditional random fields
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
CN103064945A (zh) * 2012-12-26 2013-04-24 吉林大学 基于本体的情境搜索方法
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751218B2 (en) * 2010-02-09 2014-06-10 Siemens Aktiengesellschaft Indexing content at semantic level
CN104978356B (zh) * 2014-04-10 2019-09-06 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN106528863B (zh) * 2016-11-29 2019-07-02 中国国防科技信息中心 一种crf识别器的训练及技术及其属性名关系对抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149732A (zh) * 2006-09-19 2008-03-26 阿尔卡特朗讯公司 由计算机使用的从自然语言文本开发本体的方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
US20120254143A1 (en) * 2011-03-31 2012-10-04 Infosys Technologies Ltd. Natural language querying with cascaded conditional random fields
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
CN103064945A (zh) * 2012-12-26 2013-04-24 吉林大学 基于本体的情境搜索方法
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033200A (zh) * 2021-05-27 2021-06-25 北京世纪好未来教育科技有限公司 数据处理方法、文本识别模型的生成方法和文本识别方法
CN115660424A (zh) * 2022-10-28 2023-01-31 国网四川省电力公司 一种基于gis的灾害要素分析预警系统
CN115660424B (zh) * 2022-10-28 2024-02-13 国网四川省电力公司 一种基于gis的灾害要素分析预警系统

Also Published As

Publication number Publication date
US20190362266A1 (en) 2019-11-28
WO2018223331A1 (en) 2018-12-13

Similar Documents

Publication Publication Date Title
CN110709828A (zh) 使用条件随机域模型确定文本属性的系统及方法
CN108934181B (zh) 用于路径搜索的系统和方法
TWI676783B (zh) 用於預估到達時間之方法及系統
AU2017253916B2 (en) Systems and methods for recommending an estimated time of arrival
US20200134648A1 (en) Methods and systems for preventing user churn
CN111460248B (zh) 用于线上到线下服务的系统和方法
TWI704508B (zh) 用於線上到線下服務的系統、方法和電腦可讀取媒體
US20210089531A1 (en) Systems and methods for processing queries
WO2018171531A1 (en) System and method for predicting classification for object
US20200151390A1 (en) System and method for providing information for an on-demand service
CN111859174A (zh) 一种确定推荐上车点的方法和系统
WO2021087663A1 (en) Systems and methods for determining name for boarding point
WO2021121206A1 (zh) 一种用于判定服务事故的责任的方法和系统
US11093531B2 (en) Systems and methods for recalling points of interest using a tagging model
US11120091B2 (en) Systems and methods for on-demand services
CN110598122B (zh) 社交群体挖掘方法、装置、设备及存储介质
US20220248170A1 (en) Methods and systems for recommending pick-up points
US20210064669A1 (en) Systems and methods for determining correlative points of interest associated with an address query
CN110633352A (zh) 一种语义检索的方法及装置
TWI705338B (zh) 使用條件隨機域模型確定文本屬性的系統及方法
WO2020199270A1 (en) Systems and methods for identifying proper nouns
CN111858921B (zh) 兴趣点查询方法、装置以及电子设备
CN112236787B (zh) 用于生成个性化目的地推荐的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117