CN104183144B

CN104183144B - 一种实时路况信息生成方法和系统

Info

Publication number: CN104183144B
Application number: CN201310188509.9A
Authority: CN
Inventors: 顾维灏; 贾磊; 万广鲁; 张传明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-05-20
Filing date: 2013-05-20
Publication date: 2017-11-03
Anticipated expiration: 2033-05-20
Also published as: CN104183144A

Abstract

本发明提供了一种实时路况信息生成方法，该方法包括：自动收听广播；对广播信号进行语音识别，做关键词检测，从中提取出路况信息，并将其转化成文本信息；使用自然语言处理技术，将文本信息转化为地图特征语言，绘制和反馈在地图产品中，形成交通路况信息。相应地，本发明还提供了一种实时路况信息生成系统。本发明能为广泛区域内的用户提供交通实时路况信息，可基于此进行一系列的导航、出行规划等应用，并可为路况产品提供商节省大量的人力。

Description

一种实时路况信息生成方法和系统

技术领域

本发明涉及交通实时路况信息提供领域，尤其涉及一种实时路况信息生成方法。

背景技术

随着人类出行活动的日益增长，交通实时路况的需求变得越来越重要。比如，在城市道路上行驶的司机需要及时了解前方道路的拥堵状况，以便进行规避；搭乘公交系统的人，临出行前，需要查询道路状况，以进行路线规划；网络上的交通信息提供商，需要掌握实时路况信息，以完成对客户查询的有效服务等等。在科技日新月益的发展下，移动手持终端、车载导航设备等现代科技产品已进入千家万户，路况信息发布和显示手段益发缤彩纷呈，进一步催生了实时路况信息的广泛应用。

现有技术中，众多地图产品提供商通常采取的路况信息获取方式是，雇用大量的人员，比如每个城市配备一个记录员，由这些人来收听当地广播，将广播内的交通信息记录下来，然后再汇集到各自的地图产品中，在地图上将该区域标上相应的路况信息。这种方式不仅耗费大量的人力，而且效率低下，实时性不能得到有效保障，准确率、漏记率也容易受限于个人，信息平台共享性也差，不能充分发挥信息资源的可利用效能，可以说这些问题所集中反映出的路况信息数据源的获取是整个产业链环节中的一块短板。

发明内容

本发明的目的是提供一种实时路况信息生成方法，可以实现广泛区域内路况信息的实时获取，用于导航、出行规划等服务。

为达到上述目的，一方面，本发明创造性地提出通过自动收听广播来获取交通信息音频信号，将此音频信号经过语音处理和识别，形成文本信息，最终形成地图特征语言，提供路况信息服务。此方法包括如下步骤：

a)自动收听广播；

b)对广播进行语音识别，做关键词检测，从中提取出路况信息，并将其转化成文本信息；

c)使用自然语言处理技术，将文本信息转化为地图特征语言，绘制和反馈在地图产品中，形成交通路况信息。

其中，为实现话音或非话音检测，需要构建电台广播的话音、非话音信号的训练模型；为完整有效地分离出话音，还需要建立各类型声音之间的转换点的特征模型；

其中，为实现不同主持人转换点检测，完成话音片段分割，采用了基于贝叶斯准则的SAD（Sum of absolute differences）算法；

进一步地，为实现说话人识别，需要建立主持人话音高斯混合模型（Gaussmixture model，简称GMM）库；

为实现语音识别，需要建立路况信息主持人无关的声学模型，以及拥有每一路况信息主持人的声学模型的模型库，以及本领域的知识库。

其中，所述步骤c)具体包括：对文本信息内容进行分析，并在地址数据库中进行地址查找，如果找到该地址，则将交通状态信息标注到该地址处，如果否，则根据得到的相关地址，对该新地址进行空间地址插值，然后将交通状态信息标注到该新地址处。

进一步地，为实现地址分析和空间地址插值，根据已有的大量地址构建地址数据库，并建立数据库索引，以提供快速查找。

另一方面，本发明还提供了一种实时路况信息生成系统，包括：

自动收听模块，用于自动收听广播；

语音处理模块，用于对广播进行语音识别，做关键词检测，从中提取出路况信息，并将其转化成文本信息；

路况标注模块，使用自然语言处理技术，将文本信息转化为地图特征语言，绘制和反馈在地图产品中，形成交通路况信息。

与现有技术相比，本发明具有以下优点：

本发明通过设备自动收听，实时处理转换，不仅形成自身地图产品，更可构建路况资源信息共享平台。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明的实时路况信息生成方法的流程图；

图2是根据本发明的音频信号处理过程的示意图；

图3是根据本发明的识别话音对应主持人的示意图；

图4是根据本发明的基于文本信息分析形成交通路况信息的流程图；

图5是根据本发明的针对地址数据库进行操作的示意图；

图6为根据本发明另一个方面的实时路况信息生成系统的示意性框图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

首先请参考图1，图1是根据本发明的实时路况信息生成方法的流程图，它概括地体现了本发明的主要实施步骤，包括：

步骤S110，收听广域范围内的电台播放的交通信息并将其转换为音频信号。

具体地，可以通过如无线电台电波接收设备等信号接收设备接收空口无线信号，并将该无线信号转换为音频信号，输出到下一环节。

需要强调的是，在本实施例中，所自动收听的交通信息来自普通电台广播，基于普通电台广播的特点其在内容上表现出复杂和多样性，包括多种时段，比如音乐时段、主持人说话时段、短暂静音时段，甚至包括噪音等。就其中主持人说话时段而言，说话的主持人可能有多个，不同主持人其声音都会有差异，这明显有别于采用纯粹话音（不包括音乐等等）、固定说话人的广播信号进行语音识别。

步骤S120，对音频信号进行预处理并识别成文本信息。

具体地，所述预处理过程包括：话音或非话音检测、话音片段分割；所述识别过程包括：说话人识别、语音识别。经过这一系列的预处理和识别过程，将路况信息转换成文本的形式。关于本步骤的详细过程将在后续描述中结合图2进行。

步骤S130，对文本信息中所含的地理位置进行分析，并在地址数据库中查找地址，将该地址处的交通状况绘制和反馈在地图产品中，形成交通路况信息。其详细的过程描述将在后续描述中结合图3进行。

接下来请参考图2，图2根据本发明的音频信号处理过程的示意图，根据图2，上述步骤S120进一步包含：

步骤S210，检测话音或非话音。

具体地，由于广播内容的多样性，所接收的内容不仅包含主持人话音，还可能包含音乐、静音、噪音等非话音，因此，为方便给后续的语音识别提供基础，在这多样性的音频信号中，提取主持人的话音。

为达成此功能，在此采用基于倒谱系统SAD技术。具体地，提取倒谱系数特征，从而训练模型，利用训练模型在一定的判别准则下得到检测结果，具体流程如下：

利用训练数据提取各类型声音的倒频系数特征，并建立电台信号的话音、非话音信号（包含音乐、静音、噪音等）的训练模型；

通过用于训练的音频信号的输入，建立各类型声音之间的转换点的特征模型；

利用上述模型对相邻变换点之间的声音进行判别，实现对输入音频信号中的话音部分的提取。

步骤S220，进行话音判别，根据判别结果进行不同的操作，如果是主持人话音，则进入步骤S230，否则，返回至上述步骤S110，继续接收下一段音频信号。

步骤S230，进行不同主持人转换点检测。

其中，转换点检测又称为话音分割，本步骤将前面提取出来的话音信号，按不同主持人的区别，分割成一个个独立的小话音片段。

由于从步骤S210中提取出来的一段主持人话音的音频信号，可能会包含几个主持人的穿插说话的声音，它们虽然都表现为话音信号，但由于是由不同人的声音连在一起，而每个人的声音特性有差别，这会造成后续语音识别的困难。为此，需要按不同主持人的区别，将这一段音频信号，分割成更小的几段话音片段，以便于在语音识别，每个进行识别的小片段都是单独的一个主持人的话音。为此，需要进行不同主持人话音的转换点检测，即话音分割。

在本系统中，采用基于贝叶斯信息准则（Bayes Information Criteria,BIC）的SAD算法来实现此功能。BIC准则能够从多个具有不同参数数目的模型中选择最佳参数的模型。假设一段语音数据为X_i，用模型M_i来描述。则BIC(M_i)表示M_i与语音数据X_i的匹配程度。利用BIC值的差，来决定当前时间点是否是说话人转换点。

步骤S240，识别话音对应的主持人。

具体地，针对前述包含单一主持人声音的话音片段，识别出它是属于主持人话音库中哪一个主持人的声音。

得到该话音片段属于哪个主持人的声音，就可以利用该主持人的声音模型，进行后续的语音识别。因此，找出话音片段的所属主持人，亦是一项很重要的工作。

为实现此功能，首先需要建立一个主持人话音模型库。通过训练，提取路况信息主持人话音Mel频标倒谱参数（Mel Frequency Cepstral Coefficient,简称MFCC）特征，建立路况主持人话音GMM模型库。

接着是识别阶段，提取输入的话音片段的MFCC特征，与GMM模型库中的路况主持人话音特征进行相似度比对，从而获知该话音片段是否是库中的路况主持人声音，以及是属于哪个路况主持人的声音。

本步骤的功能细节可参考图3，图3是根据本发明的识别话音对应主持人的示意图，如图3所示，所述识别的过程包括：

输入语音后，提取语音的特征，通过训练，得到说话人模型，基于说话人模型进行测试，经过匹配计算和判决，进而得到识别结果。进一步地，识别语音后，将语音转换成文本信息，具体包括以下步骤：

步骤S310，输入语言后，判别所输入的话音片段是否来自路况主持人，如果是，则进入步骤S320，否则，丢弃此话音片段，返回下一话音片段的判别。

步骤S320，语音识别，将输入话音片段内容转换成文本。

其中，本实施例优先采用和说话人相关的语音识别系统学习说话人的说话特性，以有效提升语音识别准确率。

为更好地实现语音识别功能，建立一个包含每一路况信息主持人声学模型的模型库。建库的具体过程如下：

首先，采用大量语音训练语料进行训练，得到和说话人无关的声学模型；

然后，采用无监督训练技术，对聚类后的声音进行识别，并根据识别结果进行特定说话人的声学模型自适应，建立特定说话人的声学模型。这个过程中，也可以通过手工标注数据的方式进行，以提高说话人自适应的准确度。

对所有路况主持人的声音都进行上述操作，最终形成一个包含每一路况信息主持人声学模型的模型库。

建立好这个库后，就开始对话音片段进行语音识别，具体的识别过程有两种方式：

方式一，采用通用的大词汇量连续语音识别系统解码器，对输入语音进行识别，得到相应的文本。这个过程中会有适合本领域识别的知识库支持，语音识别过程和知识库使用过程合二为一；或

方式二，采用领域知识库和声音辨识相分离的原则进行语音识别。

具体地，首先进行声音辨识，把声音识别成基本的声音单元，比如音素或者音节，这个过程中可以引入音素和音节的信息支撑识别过程；

然后在得到的音素和音节的结果网络上进行后处理，其中，该结果网络也称为声音混淆度网络，后处理的过程可以引入更复杂的领域知识和语言层信息。此方式具有方便灵活的特点。

经过以上处理，最终将输入的音频信号所含内容转换为文本信息。

接下来请参考图4，图4是根据本发明的基于文本信息分析形成交通路况信息的流程图。如图4所示，其包括：

步骤410，对文本信息中所含的地理位置，进行分析，并在地址数据库中查找地址。

具体地，根据已有的大量地址（包括完整的名称与位置）构建地址数据库，并且根据其主体名称（道路名、区域名或地标名）建立索引，以便快速查找地址。此处针对地址的详细分析及查找方法参见下文图5的说明。

步骤420，根据查找结果，进行不同的操作，如果没有在地址数据库中找到文本信息中所含地址，则判定该地址属于一个新地址，进入步骤S430；否则，进入步骤S440。

步骤430，空间插值。当文本信息中所含的地址是个地址数据库中所没有的新地址时，需要将此地址添加到地址数据库中，即进行空间插值。

当输入未列入地址数据库中的地址字符串时，首先分析该地址的类型与组成；然后将地址的主体部分作为关键字进入地址数据库查找，得到所有的相关地址；最后根据相关地址以及道路形态、行政区划、小区范围等因素进行插值，得到该地址的位置。空间插值的详细实现方法参见下文图5的说明。

步骤440，标注交通路况。

具体地，根据所找到或所新建的地址，将文本信息中所含的交通状态信息，标注到该地址处。

就以上工作举例来说，比如“中关村两车发生追尾”，其中的“两车发生追尾”是具体的状态，而我们只要找到中关村的具体位置打出点，然后将发生的状态附到该位置即可完成一个应用展示。因此，这里的关键仍是进行地名的查找匹配和具体位置的打点工作。接下来将结合图5详细说明针对地址数据库的操作。

接下来请参考图5，图5是针对地址数据库进行操作的示意图，它为图4的流程处理提供针对地址数据库操作的功能。

如图5所示，针对地址数据库涉及的技术包括：地址码库数据挖掘、地址分析、空间插值。经过综合处理，完成文本地址到空间的映射定位关系。

其中，基于地址码库数据挖掘，为定位服务提供资源上的支持。

它包括数据自动分类、名字分析结构化、地址分析结构化三个关键特征。数据自动分类将海量的地址挖掘成果根据语料库与其文本描述进行地址归类。名字分析结构化将地址的主体部分与无关附属部分分开。地址分析结构化根据已归纳的三套地址范式、常用前后缀词库来进一步去除该地址中的干扰因素。

其中，地址分析是根据归纳总结的中国地址范式，准确理解地址文本意义，各子地址成分以及关联关系。

地址范式根据其地址的主体内容将所有地址分为三大类：道路类地址、区域类地址与地标类地址。道路类地址用于描述“a路b号”、“a路b弄”等以道路为首的地址；区域类地址用于描述“a小区b号c室”等以小区名为首的地址；地标类地址用于描述“a大厦”、“b公园”等直接代表一个位置点的地址。该范式总体为一个树状结构，并且规定凡到达叶节点的地址为“完全地址”、反之为“不完全地址”。在具体的应用中，范式树可以量化为一个地址状态自动机，以实现完全地址与不完全地址的识别。该方法从一定程度上消除了概率方法带来的无法准确理解地址的问题。

其中，空间插值则拟合现实情况道路、区域、地标的几何形状，真实的反映地址文本的实际空间位置。

根据已有的地址计算附近地址的大致位置。空间插值分为点插值、线插值与面插值三类。点插值方法是由某个已知位置的a点按照某个方向平移若干距离；线插值是计算出参考地址在某条道路上的绝对里程数，并根据门牌的比例关系插值得出未知地址的绝对里程数，最后计算出道路上具有该里程数的位置作为该地址的位置；面插值是找到同小区的相邻门牌号并进行内插或者受限于小区空间范围的外插。

本发明提供了一种将广播中交通内容转化为实时路况信息的全流程自动化的方法，它尤其是在信息源获取方式上克服了现有手工方式的不足，具有突出的优点。随着地图产品的广泛应用，本发明也将有着广泛的科技应用前景，应用于各类通用和专用电子设备，比如台式电脑、掌上电脑、车载台等等。

图6为根据本发明另一个方面的实时路况信息生成系统的示意图，如图所示，实时路况信息生成系统包括自动收听模块610，语音处理模块620，路况标注模块630。

自动收听模块610，用于收听广域范围内的电台播放的交通信息并将其转换为音频信号。在本实施例中，所自动收听的广播是普通电台广播，基于普通电台广播的特点其在内容上表现出复杂和多样性，包括多种时段，比如音乐时段、主持人说话时段、短暂静音时段，甚至包括噪音等。就其中主持人说话时段而言，说话的主持人可能有多个，不同主持人其声音都会有差异，这明显有别于采用纯粹话音（不包括音乐等等）、固定说话人的广播信号进行语音识别的某些设备。

语音处理模块620，用于对音频信号进行预处理并识别成文本信息。所述预处理过程包括：话音或非话音检测、话音片段分割；所述识别过程包括：说话人识别、语音识别。经过这一系列的预处理和识别过程，将路况信息转换成文本的形式。

路况标注模块630，用于对文本信息中所含的地理位置进行分析，并在地址数据库中查找地址，将该地址处的交通状况绘制和反馈在地图产品中，形成交通路况信息。

上文对本发明各模块的具体实施例进行了描述，在此不再详述。

本发明提供的方法或系统可以使用可编程逻辑器件结合来实现，也可以实施为计算机程序软件，例如根据本发明的实施例可以是一种计算机程序产品，运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现所述在跨语言交流中对译文进行验证的方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如热拔插存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于：光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如盒带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。

本领域技术人员应当理解，任何具有适当编程装置的计算机系统都将能够执行包含在程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序，但是作为固件和硬件实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。

以上所揭露的仅为本发明的一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种实时路况信息生成方法，其特征在于，包括：

a)自动收听广播；

c)使用自然语言处理技术，将文本信息转化为地图特征语言，绘制和反馈在地图产品中，形成交通路况信息；

其中，所述步骤b)还包括：

i)对接收到的广播信号，进行话音及非话音检测，并忽略非话音部分；

ii)进行说话人转换点检测，将所述语音检测得到的话音部分，按照不同的说话人，进行话音片段分割；

iii)进行说话人识别，建立路况信息主持库，将所分割的话音片段与所建路况信息主持库中的模型进行相似度匹配，如果此话音片段是路况信息主持人的语音，则进行步骤iv的处理，否则，不进行处理；

iv)进行语音识别，将从步骤iii)中得到的与路况信息主持人语音相匹配的话音片段识别成文字。

2.根据权利要求1所述的方法，其特征在于，所述步骤a)所收听的为普通电台广播，其中包括话音及非话音。

3.根据权利要求1所述的方法，其中的步骤i)还包括：

利用训练数据提取各类型声音的倒频系数特征，并建立电台信号的话音、非话音信号的训练模型；

提取所述输入音频信号中的话音部分。

4.根据权利要求1所述的方法，其中的步骤iii)还包括：

通过训练，提取路况信息主持人话音Mel频标倒谱参数特征，建立主持人话音高斯混合模型库；

取输入的话音片段的Mel频标倒谱参数特征，与高斯混合模型库中的主持人话音特征进行相似度比对，判断该话音片段是否是库中的主持人声音，以及是属于哪个主持人的声音。

5.根据权利要求1所述的方法，其中的步骤iv)还包括：

针对每一路况信息主持人，进行语音语料训练，得到与该路况信息主持人无关的声学模型；

建立为识别提供支持的知识库；

建立每一路况信息主持人的声学模型，对聚类后的声音进行识别，并根据识别结果进行自适应，建立包括每一路况信息主持人的声学模型的模型库；

对获得的特定主持人的话音片段，从所述声学模型库中的抽取该主持人声学模型，进行语音识别，获取话音中所含的路况相关的文本信息。

6.根据权利要求5所述的方法，其特征在于，还包括：

建立路况信息知识库，采用词汇连续语音识别系统解码器，得到主持人话音中的路况信息，并形成文本；或

将路况信息主持人的声音识别成基本的音素单元，结合路况信息和语言层信息，在声音混淆度网络上进行后处理，得到主持人话音中的路况信息，并形成文本。

7.根据权利要求1所述的方法，其中的步骤c)还包括：

I)根据已有的大量地址构建地址数据库；

II)根据地址数据库的主体名称建立数据库索引；

III)将输入的文本信息中所含的地理位置，进行分析，并在地址数据库中进行查找，若找到匹配的地址，则转到步骤v)继续执行；

IV)将该地址作为一个新地址，插入到地址数据库中；

V)将输入的文本信息中所含的交通状态信息，标注到该地址处。

8.根据权利要求7所述的方法，其中的步骤I)包括：

基于地址码库数据挖掘构建地址数据库，具体包括数据自动分类、名字分析结构化和地址分析结构化。

9.根据权利要求7所述的方法，其中，步骤III)包括：

基于地址范式将地址数据库中所有地址分为三大类：道路类地址、区域类地址与地标类地址。

10.根据权利要求7所述的方法，其中的步骤IV)包括：

分析该新地址的类型与组成；

将地址的主体部分作为关键字在地址数据库中进行查找，得到所有的相关地址；

根据相关地址以及道路形态、行政区划、小区范围将新地址插入数据库。

11.根据权利要求10所述的方法，其特征在于，包括：

根据已有的相关地址进行空间差值计算出新地址的位置。

12.根据权利要求1、7、8、9、10或11所述的方法，其特征在于，将自动接收的广播内容转化成的实时路况信息，构建路况信息资源共享平台。

13.一种实时路况信息生成系统，包括：

自动收听模块，用于自动收听广播；

路况标注模块，使用自然语言处理技术，将文本信息转化为地图特征语言，绘制和反馈在地图产品中，形成交通路况信息；

其中，所述语音处理模块的语音识别过程包括：

14.根据权利要求13所述的系统，其特征在于，所述自动收听模块所收听的为普通电台广播，包括话音及非话音。

15.根据权利要求13所述的系统，其中，所述语音处理模块的语音识别步骤i)还包括：

提取所述输入音频信号中的话音部分。

16.根据权利要求13所述的系统，其中，所述语音处理模块的语音识别步骤iii)还包括：

17.根据权利要求13所述的系统，其中，所述语音处理模块的语音识别步骤iv)还包括：

建立为识别提供支持的知识库；

18.根据权利要求17所述的系统，其特征在于，所述语音处理模块的语音识别还包括：

建立路况信知识库，采用大量词汇连续语音识别系统解码器，得到主持人话音中的路况信息，并形成文本；或

19.根据权利要求13所述的系统，其中，所述路况标注模块的工作过程还包括：

I)根据已有的大量地址构建地址数据库；

II)根据地址数据库的主体名称建立数据库索引；

IV)将该地址作为一个新地址，插入到地址数据库中；

20.根据权利要求19所述的系统，其中，所述路况标注模块的工作步骤I)包括：

21.根据权利要求 19所述的系统，其中，所述路况标注模块的工作步骤III)还包括：

基于地址范式将所有地址分为三大类：道路类地址、区域类地址与地标类地址。

22.根据权利要求 19所述的系统，其中，所述路况标注模块的工作步骤IV)包括：

分析该新地址的类型与组成；

23.根据权利要求22所述的系统，其特征在于，所述路况标注模块的工作步骤IV)包括：

根据已有的相关地址进行空间差值计算出新地址的位置。