CN101529499A

CN101529499A - 笔型语音计算机及其产生方法

Info

Publication number: CN101529499A
Application number: CNA200680056189XA
Authority: CN
Inventors: 黄炎松
Original assignee: Fortemedia Inc
Current assignee: Fortemedia Inc
Priority date: 2006-09-05
Filing date: 2006-11-17
Publication date: 2009-09-09
Anticipated expiration: 2026-11-17
Also published as: US20080059196A1; TWI395105B; WO2008030254A1; TW200813748A; CN101529499B; US8447611B2

Abstract

一种用以产生语音索引表的笔型语音计算机及其产生方法。语音索引表的产生方法包括通过麦克风记录语音数据，通过手写输入装置输入图形数据而产生语音数据的手写索引，以及找出手写索引与对应的语音数据之间的关联性，以产生语音索引表。

Description

笔型语音计算机及其产生方法

技术领域

本发明涉及一种笔型语音计算机(pen-type voice computer)，特别涉及一种笔型语音计算机的数据索引。

背景技术

在传统技术中，学生使用笔来抄笔记并且使用语音记录器(voicerecorder)将上课内容录音。同样，记录员或新闻工作者在访谈中会手写笔记并且录音。

然而，存储语音数据需要相当多的存储器容量，且通过传统技术来搜寻特定语音数据也是相当不容易的。使用者通常都会盲目地搜寻全部的语音数据来找出想要的数据，因而耗费了许多不必要的时间与精力。

有鉴于此，期望设计一种可轻易地搜寻录音档中特定数据的装置。因此，本发明公开一种用来产生搜寻索引并且执行索引搜寻的方法与装置。

发明内容

以下将配合图示详细说明本发明的实施例。

笔型语音计算机的特性包括：

两个输入端--笔输入以及麦克风，一个输出端--喇叭/耳机。

三个可同时操作的输入/输出。

适用于笔输入的内建式手写辨识，适用于语音以及文字至语音的内建式语音辨识，使得服务器至笔型语音计算机之间的传输以数据取代语音。

建造为两个元件--笔以及语音接口(麦克风+喇叭/耳机)。

语音接口部分为一头戴受话器(headset)。

通过无线的方式可以接入网络、服务器、喇叭、键盘以及屏幕。

笔输入以及语音记录可以同时执行，笔输入的最后一个片段可与语音串流有关联。

在经过通过手写辨识执行辨识后，最后一个片段变为索引(文字)。

语音串流的相关片段可通过语音辨识而变为索引(文字)。

通过索引可用以搜寻以及播放语音记录。

通过比语音更多的文字即可使语音串流与服务器进行通信。

通过按钮来表示可输入的连接字串(concatenated text string)。

笔输入、语音记录以及喇叭/耳机可以同时操作。

通过手写辨识可使手写输入转变为文字。

通过语音辨识可使语音输入转变为文字。

喇叭/耳机可通过文字至语音程序持续地播放来自手写输入与记录中的文字。

附图说明

为了能充分了解本发明，将配合以下图示及实施例做说明，其中：

图1是显示根据本发明实施例所述的笔型语音计算机的方块图。

图2是显示根据本发明实施例所述的使用图1的笔型语音计算机的流程图。

图3是显示根据本发明一实施例所述的使用图1的笔型语音计算机与图2的流程图所搭配的查找表。

图4a以及图4b是显示使用图1的笔型语音计算机、图2的流程图以及图3的查找表来产生索引的方法。

图5是显示根据本发明另一实施例所述的使用图1的笔型语音计算机与图2的流程图所搭配的查找表。

具体实施方式

以下将介绍适用于根据本发明所述的优选实施例。必须说明的是，本发明提供了许多可应用的发明构思，所公开的特定实施例仅是说明达成以及使用本发明的特定方式，不可用以限制本发明的范围。

图1是显示根据本发明实施例所述的笔型语音计算机1的方块图，包括天线10、收发器11、麦克风模块12、手写输入单元13、处理器14、存储器15、电池16、喇叭/耳机17以及控制按钮18。收发器11、麦克风模块12、手写输入单元13、存储器15以及喇叭/耳机17全部都耦接至处理器14，其中收发器11耦接至天线10。

电池16耦接至笔型语音计算机1中的所有元件以提供所有元件的电力需求。

通过天线10与收发器11可以将数字信号传送至远端计算机以及接收来自远端计算机的数字信号，以执行数据存储或后数据处理(请提供相关例子)。天线10可以通过蓝牙(Bluetooth)、无线局域网络或是其他射频技术以及红外线数据协会(infrared data association，IrDA)技术与远端计算机进行通信。

麦克风模块12可包括麦克风单元122与124的麦克风阵列以及模拟至数字转换器(analog to digital converter，ADC)120。麦克风单元122与124仅接收特定角度覆盖范围内的方向语音信号(directional voice signal)，如此一来便可以消除特定角度覆盖范围外的信号源。ADC 120接收来自麦克风单元122与124的模拟语音信号并将其转换为数字数据。手写输入单元13接收来自写入端(writing tip)的写入信号，写入端可以为笔或描画针(stylus)、触控板、鼠标或是光学扫描器。即时(realtime)应用系统通过手写辨识软件应用程序来检测或辨识描画针、触控板或是鼠标所接收的使用者手写输入而产生二进位格式、文字格式或是任何适用于数据存储与转换的格式。对于离线应用系统来说，通过光学扫描器所扫瞄的文件或手写输入可在处理器14中进行辨识。手写信号可以为文数字符(alphanumeric character)、图形或图案。

喇叭/耳机18接收来自处理器14的模拟音频信号并且将音频信号传送至四周给使用者听。

存储器16提供暂时的数据存储空间给处理器14使用，使得程序代码可以被处理器14执行。存储器16可以为随机存取存储器(Random accessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、快取存储器或是上述的组合。

处理器14可以为数字信号处理器(digital signal processor，DSP)。处理器14接收来自麦克风模块12与手写输入单元13的数字数据并且执行数据处理。数据处理包括数据录音、语音辨识、手写辨识、产生索引、数据压缩、索引搜寻、产生音频信号以及输入/输出操作。数据录音暂时记录数字化音频数据或是数字化手写数据以执行数据辨识。语音辨识辨认语音字符，并将已辨识的字符转换为可用于数据传输与存储的形式，包括文字、二进位或其他计算机可读取的形式。手写辨识辨识手写文字或是图形等，并将已辨识的文字转换为可在本地存储器或远端计算机执行数据传输与存储的形式。产生索引于数字化数据处标记索引，使得使用者在之后可以搜寻具有已知索引的标记数据。索引可以为从麦克风模块12或手写输入单元13所输入的文数字符或是通过手写输入单元13所输入的图形。数据压缩是将数字数据执行压缩以减少其数据量，使得数据存储更具经济效益，并且可以降低与远端计算机执行传输的数据传输量。索引搜寻寻找在产生索引的操作中标记为预定索引的数据。产生音频信号接收来自远端计算机的压缩数据，将数据解压缩并且转换为可以被使用者辨识的模拟音频波形。输入/输出操作提供笔型语音计算机1与外部装置之间的输入与输出数据的存取。

控制按钮18可以接收使用者输入并且辨认对应的数据处理，包括数据录音、语音辨识、手写辨识、产生索引、数据压缩、索引搜寻、产生音频信号、语音重播、数据确认与校正。控制按钮18可以为机械开关、电子开关、触控式开关(on-screen switch)或是上述的组合。

图2显示使用图1的笔型语音计算机的流程图，包括判断指令S20、数据录音S200、语音辨识S201、产生索引S2010、数据压缩S2011、手写辨识S202、产生索引S2020、数据压缩S2021、语音输出S203、索引搜寻S204、输入/输出操作S205、语音重播S206、数据确认与校正S2060。

当控制按钮18接收输入数据来启动数据处理时，处理器14编译并执行对应于输入数据的指令(S20)。

在数据录音辨识指令(S200)中，处理器14接收来自ADC 120的数字化语音数据或是来自手写输入单元13的手写信号，并将其存储于存储器15中。

在语音辨识指令S201步骤中，处理器14辨识语音数据并将语音数据转换为二进位文字或是可以执行数据存储或数据压缩的其他格式。数据压缩S2011步骤是将转换后的数据执行压缩以降低存储的需求，并将压缩后的数据存储于存储器15中或是通过收发器11与天线10进行无线传输而存储于远端计算机中。在索引产生(S2010)步骤中，控制按钮18会被启动以于语音辨识(S201)期间开始搜寻索引。根据本发明实施例，当语音辨识(S201)将语音数据转换为文字数据时，手写工具13取得手写信号并将手写信号转换为与文字数据连接的搜寻索引，使得搜寻索引可以映射至文字数据。文字数据与搜寻索引可存储于图3的查找表(lookup table)中的数据以及搜寻索引栏中。文字数据的位置可以映射至搜寻索引的文字数据的起始地址来表示。

在手写辨识S202步骤中，处理器14是将手写信号转换为二进位、文字或是可用以执行数据存储或数据压缩的其他格式，并且加以识别。同样，数据压缩S2021是将已转换格式的手写数据执行压缩，以降低存储需求，并且将压缩数据存储于存储器15或是通过收发器11以及天线10以无线传输的方式存储于远端计算机中。在索引产生(S2020)步骤中，控制按钮18于手写辨识(S202)期间会被启动以开始进行搜寻索引。根据本发明一实施例，当手写辨识(S202)步骤将手写信号转会为文字数据时，麦克风模块12取得语音数据并将其转会为连接至文字数据的搜寻索引，使得搜寻索引映射至文字数据。文字数据与搜寻索引可存储于图3的查找表的数据以及搜寻索引栏中。文字数据的位置可以映射至搜寻索引的文字数据的起始地址来表示。

输入/输出操作205执行输入与输出操作，以达成笔型语音计算机与远端计算机之间的沟通。

在索引搜寻S204步骤中，控制按钮18会被启动，用以开始执行索引搜寻。搜寻索引可以为来自麦克风模块12的语音数据或是来自手写工具13的手写数据。根据本发明实施例，搜寻索引为语音数据，处理器14从存储器15中载入包括文字数据与搜寻索引的查找表，寻找搜寻索引栏中的搜寻索引，映射对应的文字数据并将其输出为搜寻结果。根据本发明其他实施例，麦克风模块12接收语音索引数据，处理器14是将语音索引数据转换为作为搜寻索引的文字格式，载入存储器15中部分或所有即将被搜寻的文字数据并且寻找搜寻索引以作为搜寻结果。根据本发明另一实施例，手写工具13接收手写索引数据，处理器14是将手写索引数据转换为作为搜寻索引的文字数据，载入存储器15中部分或全部即将被搜寻的文字数据并且寻找搜寻索引以作为搜寻结果。处理器14随后于语音输出操作S203步骤中将搜寻结果转换为模拟语音信号，使得耳机/喇叭17可播放语音信号，使用者因而可确认与校正搜寻结果。使用者可通过控制按钮18略过搜寻结果，并且通过使用搜寻索引对存储器15剩下的数据进行下一次搜寻，直到找到期望的搜寻结果为止。

在语音重播S206步骤中，控制按钮18指出使用者期望播放存储于远端计算机或存储器15中的特定数据。根据本发明一实施例，处理器14是将远端计算机或存储器15中的压缩数据解压缩并且转换为即将为耳机/喇叭17播放的语音信号，使用者因而可以确认与校正数据。

在数据确认与校正S2060步骤中，使用者通过控制按钮18指出来自语音重播S206步骤中的播放结果或是来自索引搜寻204步骤中的搜寻结果是否正确。当播放结果或搜寻结果不正确时，使用者可通过操作控制按钮18来校正结果。

图3显示与图1的笔型语音计算机以及图2的流程图结合的查找表3，包括搜寻索引栏300、语音数据栏301、文字数据栏302以及时序连结栏304。搜寻索引栏300包括在索引产生S2010或索引产生S2020步骤中所产生的搜寻索引。搜寻索引可以为语音数据、手写数据或是文字数据。语音数据栏301包括对应于搜寻索引的语音数据的初始地址。文字数据栏302包括对应于搜寻索引的文字数据的初始地址。时序连结栏304包括对应于数据记录时间的时间计数(time count)。在索引搜寻204或重播S206步骤期间处理器14使用期望搜寻索引来寻找搜寻索引栏300，并且找出索引搜寻栏中的期望搜寻索引，查找对应的语音数据栏301、文字数据栏302或是时间连结栏304，并且将与初始位置或时间计数有关的数据转换为语音数据，并且在语音输出S203步骤中通过耳机/喇叭17来播放语音信号，使得使用者可以确认数据的准确性。根据本发明一实施例，单一搜寻索引可对应至多个语音数据、文字数据或时间计数，且使用者可以忽略目前的索引搜寻S204步骤，并通过控制控制按钮18以相同的搜寻所引来进行下一次的搜寻。处理器14接着寻找搜寻索引栏300中的其他搜寻索引，转换并播放与语音数据、文字数据或是与时间计数有关数据。

图4a与图4b显示根据本发明实施例所述的使用图1的笔型语音计算机、图2的流程图以及图3的查找表来产生索引的方法，图4a为在语音录音S200步骤中所录制的声音串流，图4b为在手写辨识S202与索引产生S2020步骤中所产生的手写输入。

处理器14于语音录音S200期间通过麦克风模块12接收图4a中的语音，使用者通过控制控制按钮18来启动索引产生S2020步骤并且在图4b的纸上画出一些字或图案。参照图4b，使用者将底线画在字“Newton”下并且在底线末端加上原点来表示“Newton”为搜寻索引，处理器14于存储器15中向后搜寻符合搜寻索引“Newton”的数据，并且将“Newton”记录于搜寻索引栏300中，将符合的数据的起始地址记录于文字数据栏302中。同样的，末端具有原点的底线亦画在字“gravitation”、“Laplace”、“Hooke”、“mechanic”以及“satellites”下而产生分别记录于搜寻索引栏300与文字数据栏302中的搜寻索引以及数据。根据本发明另一实施例，使用者将纸张上的文字串流“handwriting in paper notebook”圈出，处理器14将圆圈视为时序连结，在时序连结栏304中记录画圆圈时的时间计数并且将文字串流“handwriting in paper notebook”记录于索引搜寻栏300中。

使用者在索引搜寻操作S204期间以“Newton”、“gravitation”、“Laplace”、“Hooke”、“mechanic”以及“satellites”来搜寻索引表，处理器14寻找搜寻索引栏300并且回报文字数据栏302中对应的数据。使用者也可以关键字“handwriting in paper notebook”来搜寻索引表，处理器14寻找搜寻索引栏300，回报时序连结栏304中的时间计数，并且通过耳机/喇叭17来播放该时间计数时存储器15中的数据，使得使用者可以验证数据的准确性。

参照图4a，根据本发明另一实施例，使用者期望进行多次索引搜寻204或重播S206步骤。手写工具13接收作为搜寻索引的输入“Newton”，处理器14寻找搜寻索引栏300，找出符合期望索引的第一搜寻索引(对应至“Newton conceived that...”)，转换并播放数据让使用者来验证准确性，如果使用者认为数据不正确，使用者可忽略目前的索引搜寻并且通过控制控制按钮18来进行下一次搜寻，处理器14接着寻找搜寻索引栏300，找出第二搜寻索引(对应至“Newton，through he...”)，转换并播放数据让使用者来验证准确性，忽略与进行搜寻的程序可以重复许多次直到找到符合要求的数据为止。

图5显示根据本发明另一实施例所述与图1的笔型语音计算机1以及图2的流程图结合的查找表5，包括手写索引栏500、文字索引栏502、语音索引栏506以及应用索引栏508。手写索引栏500是将来自手写工具13的手写信号存储为搜寻索引。文字索引栏502也包括作为搜寻索引的手写文字数据。语音索引栏506包括作为搜寻索引的语音数据。应用索引栏508包括对应于手写索引栏500、文字索引栏502或是语音索引栏506中搜寻索引的时间、程序指令或是电话号码。

当使用手写工具13在书写平面上做笔记时，使用者通过麦克风模块12记录语音文件，通过控制控制按钮18可以于手写索引栏500中产生索引5001。处理器14于产生手写索引5001时接收并记录手写信号，将手写信号转换为文字格式的手写数据，记录手写数据的文字索引5021，并且产生手写索引5001。根据本发明一实施例，应用索引栏508保持对应于手写索引5001的时间索引5081，使得使用者可以通过搜寻手写索引栏5001或是文字索引栏5021找出时序间索引5081。使用者也可以产生对应于手写索引5001或文字索引5021的语音索引5061作为另外的搜寻索引，使得使用者可以通过对麦克风模块12说出语音索引5061而找出时间索引5081。语音索引可通过手写工具13输入手写索引或是文字索引而产生，播放语音文件中对应于时间索引的内容，控制控制按钮18来表示产生语音索引，记录来自麦克风模块12的语音串流，并且确认完成产生语音索引的步骤。语音索引5061可以为与手写索引5001或文字索引5021的发音有关或无关。在应用索引栏508中的应用索引对应至手写索引、文字索引或是语音索引。应用索引5081可以为控制笔型语音计算机1的内部或外部装置的程序指令，处理器14接收并寻找手写索引栏500、文字索引栏502、语音索引栏506中的搜寻索引，且找出并执行对应的应用索引。应用索引5081也可以为电话号码，处理器14接收并寻找手写索引栏500、文字索引栏502、语音索引栏506中的搜寻索引，并且找出对应于应用索引栏508的电话号码。

在一种应用系统中，使用者分别输入对应于人名的输入手写索引5001以及语音索引5061，该人的电话号码是作为应用索引508，如此一来便建立了电话簿。由于手写与语音发音皆是同一个人建立的，因此手写索引5001或语音索引5061可以作为独特的辨识器，如此一来便可以禁止其他人使用此电话簿以达到高安全性以及便利性。在其他应用系统中，使用者在手写索引栏500中输入手写指令，在语音索引栏506中输入语音指令，并且在对应的应用索引栏508中输入程序指令，因此建立了高安全性且便利性的客制化指令表。

本发明虽以优选实施例公开如上，然其并非用以限定本发明的范围，本领域技术人员，在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视所附权利要求书所界定者为准。

Claims

1.一种产生方法，用以在一笔型语音计算机中产生具有一手写索引栏、文字索引栏、语音索引栏以及应用索引栏的一语音索引表，包括：

通过一麦克风记录一语音数据；

通过使用一手写输入装置输入一图形数据启动一控制按钮用以产生上述语音数据的一手写索引；以及

找出上述手写索引与对应的上述语音数据之间的关联性，以产生上述语音索引表。

2.如权利要求1所述的产生方法，其中上述语音数据包括多个语音片段，每一语音片段具有对应的时序索引，产生步骤包括使用文字辨识将上述图形数据转换为手写索引；且上述关联步骤包括当上述语音文字数据符合上述语音片段时找出时序索引与上述手写索引之间的关联性。

3.如权利要求1所述的产生方法，还包括：

接收来自一声敏元件的一语音索引；以及

找出上述语音索引与上述手写索引以及对应的上述语音数据之间的关联性。

4.如权利要求2所述的产生方法，还包括：

根据上述手写索引播放一语音数据。

5.如权利要求3所述的产生方法，还包括：

接收一第二语音索引来取代上述语音索引表中的上述语音索引。

6.一种笔型计算机，用以产生具有一手写索引栏、一文字索引栏、一语音索引栏以及一应用索引栏的一语音索引表，包括：

一麦克风，用以记录一语音数据；

一产生装置，用以通过使用一手写输入装置输入一图形数据启动一控制按钮以产生上述语音数据的一手写索引；以及

一关联装置，用以找出上述手写索引与对应的上述语音数据之间的关联性而产生上述语音索引表。

7.如权利要求6所述的笔型计算机，其中上述语音数据包括多个语音片段，每一语音片段具有对应的时序索引，用以上述产生装置包括一转换装置，通过使用文字辨识将上述图形数据转换为上述手写索引，且上述关联装置包括于上述语音文字数据符合上述语音片段时找出上述时序索引与上述手写索引之间的关联性的装置。

8.如权利要求6所述的笔型计算机，还包括：

一接收装置，用以接收来自一声敏元件的一语音索引；以及

一关联装置，用以找出上述语音索引与上述手写索引以及对应的上述语音数据之间的关联性。

9.如权利要求7所述的笔型计算机，还包括：

一播放装置，用以根据上述手写索引播放一语音数据。

10.如权利要求8所述的笔型计算机，还包括：

一接收装置，用以接收一第二语音索引来取代上述语音索引表中的上述语音索引。