JP2009301125A - Conference voice recording system - Google Patents
Conference voice recording system Download PDFInfo
- Publication number
- JP2009301125A JP2009301125A JP2008152030A JP2008152030A JP2009301125A JP 2009301125 A JP2009301125 A JP 2009301125A JP 2008152030 A JP2008152030 A JP 2008152030A JP 2008152030 A JP2008152030 A JP 2008152030A JP 2009301125 A JP2009301125 A JP 2009301125A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- conference
- voice
- unit
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、打ち合わせやブレインストーミングなどの会議の場において、その音声を録音・検索・共有する会議音声録音システムに関するものである。 The present invention relates to a conference audio recording system for recording, searching, and sharing the audio in a meeting such as a meeting or brainstorming.
これまでに会議における音声を録音し、その音声から議事録を作成する技術が示されている。特許文献1では、会議での音声を音声認識装置によって文字化し、自動的に議事録を作成する方法が記載されている。非特許文献1には、会議中の発言を書記が専用ツールで全て書き起こし、それを議事録として保存する技術が記載されている。
So far, there has been shown a technique for recording a voice in a conference and creating a minutes from the voice. Japanese Patent Application Laid-Open No. 2004-133867 describes a method of automatically creating a minutes by converting a voice at a meeting into a character by a voice recognition device. Non-Patent
また特許文献2では、複数の参加者がドキュメントを編集・共有するようなシステムにおいて、個々の発言に対して参加者がドキュメント編集の管理権を持つことで、利害関係の複雑な議題においてもドキュメントを適切に管理しつつ、自由な意見発信を可能としている。この技術では、参加者の発言を特定するために、個々人を識別するための何らかの端末を前提としている。
Further, in
特許文献3には、マイクロホンを用いて会議を録音し、話者識別を用いて各発話に承認権を付与する技術が記載されている。話者識別ができなかった場合には、全員の承諾のもと議長が書き起しを行う。特許文献4には、公開したくない発言を行う場合に、特定のボタンを押すことにより録音を中断することが記載されている。
特許文献1や非特許文献1では、参加者の発言は公式な発言として扱われ、参加者が自身の発言を修正する権限の管理や、容易に自身の発言を修正する枠組みが提供されていない。実際の会議の場面では、全ての発言が公式なものとして扱われることはむしろ稀であり、このような前提は参加者の自由な発言を阻害する恐れがある。特に、打ち合わせやブレインストーミングなどの会議で、広く意見を収集して知識の醸成を図るという目的であった場合には、その本来の目的が十分達成されない恐れがある。
In
また、参加者が面と向かって打ち合わせをするような会議(TV会議を含む)において、各参加者がそれぞれ専用の入力端末を保持するという状況は、以下の点において不便である。まず第1に、専用の入力端末の数以上の参加者は会議に参加できない。第2に、専用の入力端末ごしにしか発言できない状況は、参加者に過度の心的ストレスを感じさせる。第3に、専用の入力端末ごしに発言するという状況は従来の打ち合わせの方法と大きく異なり、参加者がシステムに慣れるまでに相当の時間を要する。第4に、このような専用システムを設置するのは非常にコストがかかる。上記観点から鑑みて、各人が専用の入力端末を保持するような会議の場というのは限られた環境でのみ有効なものと考えられる。 Further, in a conference (including a TV conference) in which participants make a meeting with each other, the situation in which each participant holds a dedicated input terminal is inconvenient in the following points. First of all, more than the number of dedicated input terminals cannot participate in the conference. Secondly, a situation where the user can speak only through a dedicated input terminal causes the participants to feel excessive mental stress. Third, the situation of speaking through a dedicated input terminal is very different from the conventional meeting method, and it takes a considerable amount of time for participants to get used to the system. Fourth, it is very expensive to install such a dedicated system. In view of the above, it is considered that a meeting place where each person holds a dedicated input terminal is effective only in a limited environment.
特許文献3の方法は、参加者が専用の入力端末を保持する必要がなく、また発言の管理も行われているものの、その目的はあくまで正確な議事録を作成することにあり、参加者が自由な発言を行える環境を提供するという点は考慮されていない。録音しても参加者が自由に発言を行えるようにするためには、各参加者が自身の発言を容易に検索・編集できる機能を備えることが必要である。また、この方法では、話者識別に失敗した場合に一律で全員の承諾を必要としており、議事録作成までの全員の作業量が多いという問題もある。打ち合わせの録音システムを日常的に利用することを考えると、打ち合わせ後の作業は最小限であることが望ましく、この点でも改善が必要である。
The method of
ボタンを押して録音を中断する方法の場合、参加者は自身の発言が不適切だったと後から気付いた場合に対処できない。結果として、参加者の自由な発言が阻害されるという問題が生じる。 In the case of the method of interrupting recording by pressing a button, the participant cannot cope with later notice that his / her speech was inappropriate. As a result, there arises a problem that a participant's free speech is hindered.
上記のように、従来技術は打ち合わせでの音声を録音・共有するシステムを提供しているものの、参加者が自由な発言を行うための枠組みを十分に提供していなかった。本発明は、打ち合わせ参加者の作業を最小にしつつ、必要であれば参加者が容易に自身の発言を検索・修正できる枠組みを提供する。また、参加者の利害関係が複雑な会議においても、発言の修正を適切な権限で行えるようにするための枠組みの提供も行う。 As described above, although the conventional technology provides a system for recording and sharing the audio at the meeting, it does not provide a sufficient framework for participants to speak freely. The present invention provides a framework that allows participants to easily search and modify their own statements if necessary, while minimizing the work of meeting participants. In addition, we will provide a framework for making it possible to correct statements with appropriate authority even in meetings where the interests of participants are complex.
本発明では、打ち合わせの発話音声の話者音響特徴量や方向情報などからそれぞれの発話の話者を識別し、その際の信頼度に応じた適切な音声修正権を発話ごとに付与する。また録音後に、音声を容易に検索・修正できる音声検索部、音声修正部を備えることにより、会議参加者が会議後に容易かつ適切な権限でもって会議音声を修正することができるようにする。このことにより、適切な会議音声の記録・共有を最低限の作業で行いつつ、参加者が自由に議論を行うことを可能とする。 In the present invention, the speaker of each utterance is identified from the speaker acoustic feature amount and direction information of the uttered speech, and an appropriate voice correction right according to the reliability at that time is given to each utterance. Further, by providing a voice search unit and a voice correction unit that can easily search and correct the voice after recording, the conference participants can easily correct the conference voice with an appropriate authority after the conference. This allows participants to discuss freely while recording and sharing appropriate conference audio with minimal work.
本発明によると、会議録を録音・共有するシステムにおいて、参加者が自由な議論を行うことが可能となる。 According to the present invention, participants can freely discuss in a system for recording and sharing conference minutes.
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明による会議音声記録・共有システムの構成例を示す機能ブロック図である。本システムは、会議の参加者を予め登録しておくためのユーザ管理部001、会議音声を録音する際に動作する音声記録部002、及び会議終了後に会議の録音内容を修正する会議録音修正・認証部003を有する。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a functional block diagram showing a configuration example of a conference audio recording / sharing system according to the present invention. The system includes a user management unit 001 for registering conference participants in advance, an audio recording unit 002 that operates when recording conference audio, and conference recording correction / modification that corrects the recording content of the conference after the conference ends. An authentication unit 003 is included.
以下、図1に示した会議音声記録・共有システムにおける処理を、順を追って説明する。 Hereinafter, processing in the conference audio recording / sharing system shown in FIG. 1 will be described in order.
まず、ユーザ管理部001における処理を図2のフローチャートに示した。ユーザが初めて本システムを利用するときには、ユーザ登録部116で当該ユーザの情報を登録する。この際にはユーザ名などを登録する。また、当該ユーザの声も併せて録音し、ユーザ情報保持部118へ保存する。また必要であればパスワードの登録か、ユーザ固有のIDカードの登録・発行を行う。さらに、この際にユーザの顔写真などを保存しておくこともできる。
First, the process in the user management unit 001 is shown in the flowchart of FIG. When a user uses this system for the first time, the
次に、音声記録部002における処理について説明する。音声記録部002は、会議の参加者を同定する参加者同定部110、音声入力部101、入力された音声を蓄積する音声録音部102、録音された多チャンネル音声から話者の方向を特定する話者方向検出部103、入力された音声を話者ごとに分離する音源分離部104、分離された音声それぞれから話者性を現す特徴量を抽出する話者音響特徴抽出部105、話者方向情報と話者音響特徴及び参加者同定部で同定した参加者情報から当該音声の話者を判定する話者識別部106、識別された話者の信頼度に基づき当該音声に修正権や修正権譲渡証を設定する修正権設定部107、上記の修正権情報を蓄積するアクセス権情報登録部108、音声やアクセス権限を保存する音声データベース109、及び音声インデキシング部119を有する。
Next, processing in the audio recording unit 002 will be described. A voice recording unit 002 identifies a participant from a participant identification unit 110 that identifies a participant in a conference, a
本実施例では音声入力部101において、複数のマイクロホンからの同期入力を受け付けるものとする。また、音声記録部002は、その他に画像入力部と画像蓄積部を備えていてもよい。このような応用は、特にTV会議システムにおいて利用可能と考えられる。
In this embodiment, the
音声記録部002における処理のフローチャートを図3に示した。
会議が始まる前に、まず参加者同定部110が会議の参加者を同定する。このために、例えば冒頭で参加者名を各参加者、もしくは議長が発話し、それを音声認識することによって参加者を同定する。この際に、ユーザ登録部116においてユーザ情報保持部118に登録されたユーザ名から、音声認識辞書を作成することも可能である。なお、音声認識の手法自体は本技術分野において周知であるため説明は省略する。
A flowchart of processing in the voice recording unit 002 is shown in FIG.
Before the conference starts, the participant identification unit 110 first identifies participants of the conference. For this purpose, for example, each participant or the chairman speaks the participant name at the beginning, and the participant is identified by voice recognition. At this time, it is also possible to create a speech recognition dictionary from the user name registered in the user
そのほかに、話者ごとにIDカードを発行しておき、参加時にカードリーダに読み取らせる方法や、キーボードから会議参加者を入力する方法、参加者の候補を表示デバイス上に示し選択させる方法などが考えられる。また会議中の発話の音響的な話者性から参加名を特定する方法や、顔画像から参加者名を特定する方法もある。 In addition, there are a method of issuing an ID card for each speaker and reading the card reader at the time of participation, a method of inputting a conference participant from the keyboard, a method of showing and selecting a participant candidate on a display device, etc. Conceivable. There are also a method for identifying the participant name from the acoustic speaker characteristics of the utterance during the conference and a method for identifying the participant name from the face image.
さらに、ユーザ管理部でシステムに登録していないユーザが会議に加わった場合には、ゲストアカウントで会議に参加する。また、この時に「ゲストです」といった発話を行ってもらい、当該音声から話者の声質を学習して、後段の話者識別部106で利用することも考えられる。
Furthermore, when a user who is not registered in the system by the user management unit joins the conference, the user joins the conference with the guest account. It is also conceivable that at this time, the user speaks “I am a guest”, learns the voice quality of the speaker from the voice, and uses it in the
上記で同定された会議の参加者は、当該会議で録音される全ての音声の視聴権を与えられる。 Participants in the conference identified above are given the right to view all audio recorded in the conference.
実際に会議が始まると、システムは複数マイクロホンを持つ音声入力部101から逐次会議の音声を取り込み、音声データベース109へ保存する。それぞれのマイクロホンは直線や円周など既定の配置で設置されており、各マイクロホンからの入力は専用のA/Dボードを通して同期して話者方向検出部103へと渡される。話者方向検出部103では、上記の多チャンネルの音声から音源の方向を検出する。この場合、複数の話者が同時に発話する可能性もあり、そのような場合でも全ての音源方向を正確に検出できることが望ましい。
When the conference actually starts, the system sequentially captures the audio of the conference from the
ここでマイクロホンの素子数をM=2とし、それぞれのマイクロホンから得られる信号をxi(τ)(i=1,2)と表す。まずそれぞれのxi(τ)に対して短時間フーリエ変換を行い、この結果をXi(f,τ)とする。ここでfは周波数、τは短時間フーリエ変換のフレームインデクスを表す。 Here, the number of microphone elements is M = 2, and a signal obtained from each microphone is represented as x i (τ) (i = 1, 2). First, short-time Fourier transform is performed on each x i (τ), and the result is defined as X i (f, τ). Here, f represents a frequency, and τ represents a frame index of a short-time Fourier transform.
得られた時間周波数ごとに、0番目のマイクロホン入力を基準とした位相差θを推定する。 For each time frequency obtained, the phase difference θ with respect to the 0th microphone input is estimated.
音源方向γは以下の式によって導かれる。
ここでrはマイクロホン1とマイクロホン2の距離、vは音速を表す。また音源方向はマイクロホン1と2の2等分直線方向を0(degree)とした時の角度で示されている。
Here, r represents the distance between the
上記を時間周波数帯ごとに求めたのち、音源方向を横軸にとったヒストグラムを作成してピークサーチを行うことにより、複数音源の定位を行うことができる。 After obtaining the above for each time frequency band, a plurality of sound sources can be localized by creating a histogram with the sound source direction on the horizontal axis and performing a peak search.
上記にはマイクロホン素子数M=2の時の例を示したが、マイクロホンの数が2より多い場合でも、上記アルゴリズムの拡張によって対処できる。また、上記の定位精度を向上した「戸上真人他:逐次的な位相差補正処理に基づく音源定位方式SPIREの定位性能評価,2007年春季音響学会,2007」などの方法も利用できる。これらの詳細は、当業者であれば周知であるため、ここでは記述しない。 The example in the case where the number of microphone elements M = 2 is shown above, but even when the number of microphones is larger than 2, it can be dealt with by extending the algorithm. Further, methods such as “Makoto Togami et al .: Localization performance evaluation of sound source localization method SPIRE based on sequential phase difference correction processing, 2007 Spring Acoustic Society, 2007” with improved localization accuracy can be used. These details are well known to those skilled in the art and will not be described here.
さらに音源分離部104では、上記で求めた方向情報を元に音声を音源ごとに分離する。これは、例えば最小分散ビームフォーマを用いることで実現することができる。なお、もちろんこの代わりに独立成分分析などその他の音源分離手法を用いることも可能である。 Further, the sound source separation unit 104 separates the sound for each sound source based on the direction information obtained above. This can be realized, for example, by using a minimum dispersion beamformer. Of course, other sound source separation methods such as independent component analysis can be used instead.
最小分散ビームフォーマでは、Xi(f,τ)に対し、以下の式で求めた線形フィルタw(f)を掛け合わせることにより、目的方向の音を強調し、それ以外の音を抑圧する。 In the minimum dispersion beamformer, X i (f, τ) is multiplied by a linear filter w (f) obtained by the following expression to emphasize the sound in the target direction and suppress other sounds.
ここで、a(f)は目的音方向の空間伝達特性、R(f)は空間相関行列を表す。
本処理のこれ以上の詳細は当業者であれば周知であるため、ここでは記述しない。
上記で示した音源分離処理により、複数人が同時に発話したような状況においても、発話ごとに分離された音声が得られる。以下の処理は、分離されたそれぞれの音声を音声セグメントとし、個々の音声セグメントに対して別個に行う。
Here, a (f) represents a spatial transfer characteristic in the target sound direction, and R (f) represents a spatial correlation matrix.
Further details of this process are well known to those skilled in the art and will not be described here.
By the sound source separation process described above, it is possible to obtain a sound separated for each utterance even in a situation where a plurality of people speak at the same time. The following processing is performed separately for each voice segment, with each separated voice as a voice segment.
まず話者音響特徴抽出部105が、分離されたそれぞれの音声セグメントXに対して、話者性を現す話者音響特徴量を抽出する。ここで話者音響特徴量としては、MFCC(Mel Frequency Cestrum Coefficient)などが利用できる。この特徴量の詳細は、この分野の当業者には周知であるため説明を省略する。
First, the speaker acoustic
次に、上記話者音響特徴量と、話者方向検出部で求めた話者方向及び参加者同定部から得られる参加者情報を元に話者識別部106が話者の判定を行う。この実施例ではGMM(Gaussian Mixture Model)を用いた話者識別を用いる。話者音響特徴量の列X={X1,…,Xn}が与えられたとき、それが話者Aである尤度は以下で表される。
Next, the
ここでmj,vj,λjはそれぞれ番目の正規分布の平均、分散と分布の混合重みであり、あらかじめユーザ情報保持部において保持されている話者Aの音声から値を学習しておいたものである。 Here, m j , v j , and λ j are the average of the first normal distribution, the mixture weight of the variance and the distribution, respectively, and the values are learned from the voice of the speaker A held in the user information holding unit in advance. It was.
当該音声が話者Aである音響的信頼度CMAC(A|X)を求めるためには、さらにBack-ground Modelと呼ばれる、一般的な音響情報を表現するGMMの尤度P(X|GMMbg)を求め、話者尤度との比を計算する。 In order to obtain the acoustic reliability CM AC (A | X) that the voice is the speaker A, the likelihood P (X | GMM) of the GMM that expresses general acoustic information, called a back-ground model. bg ) and calculate the ratio to the speaker likelihood.
また上記に加えて、音声方向検出部で推定した話者方向に基づき、当該音声が話者Aの発話である信頼度CMDOA(A|X)を算出することもできる。このためには、例えば話者Aが特定の席に着席していることが多いという情報を確率P(D|A)として表しておき、下記のように求めることが考えられる。 In addition to the above, the reliability CM DOA (A | X) that the speech is the speech of the speaker A can be calculated based on the speaker direction estimated by the speech direction detection unit. For this purpose, for example, information that the speaker A often sits in a specific seat is expressed as a probability P (D | A), and it can be obtained as follows.
ここでDは音声の到来方向を表す。
P(A|D)の求め方としては、これまでの会議もしくは現在録音中の会議で得られた音声発話集合を元に下記で求めることなどが考えられる。
Here, D represents the voice arrival direction.
As a method of obtaining P (A | D), it is conceivable to obtain the following based on the speech utterance set obtained in the previous conference or the conference currently being recorded.
上記のXの和は、これまでの会議もしくは現在録音中の会議で得られた音声セグメントの集合に関しての和とする。またaはAの要素である個々のユーザとする。
上記で得られたCMAC(A|X)とCMDOA(A|X)から当該音声が話者Aの発話である信頼度CM(A|X)を求める。例えば、上記の線形和で
The above sum of X is the sum for the set of audio segments obtained in the previous conference or the conference currently being recorded. Further, a is an individual user who is an element of A.
From the CM AC (A | X) and CM DOA (A | X) obtained above, the reliability CM (A | X) that the voice is the utterance of the speaker A is obtained. For example, with the linear sum above
なお、上記では例として話者音響情報から得られる信頼度CMAC(A|X)と話者方向情報から得られる信頼度CMDOA(A|X)の2つのみを用いているが、そのほかにシステムが会議場や会議参加者を撮像するカメラなどの撮像手段を備えており、当該撮像手段から得られた画像を元に、話者の顔画像の特徴情報から当該発話の話者ごとの信頼度を求めて組み合わせることも可能である。同様に話者の顔画像と方向情報から、当該発話の話者ごとの信頼度を求めることも可能である。 In the above, only two of the reliability CM AC (A | X) obtained from the speaker acoustic information and the reliability CM DOA (A | X) obtained from the speaker direction information are used as an example. The system includes an imaging unit such as a camera for imaging a conference hall or a conference participant, and based on the image obtained from the imaging unit, the feature information of the speaker's face image is used for each speaker of the utterance. It is also possible to obtain a combination of reliability. Similarly, the reliability for each speaker of the utterance can be obtained from the face image of the speaker and the direction information.
修正権設定部107では、上記で得られた話者信頼度に基づき、各音声に話者ごとの修正権を付与していく。ここで、下記(1)〜(3)で異なる修正権付与を行う。
(1)話者信頼度が予め定めた閾値θ1以上の話者が1名だけ存在する場合
当該話者に対する修正権を付与する
(2)話者信頼度が閾値θ1以上の話者が複数存在する場合
当該話者全てに対する修正権譲渡証を付与する。
(3)話者信頼度が閾値θ1以上の話者が存在しない場合
全ての参加者に対する修正権譲渡証を付与する。
The correction
(1) the speaker reliability predetermined threshold theta 1 or more speakers to impart modifications right to the speaker if there is only one person (2) speakers reliability threshold theta 1 or more speakers If there is more than one, give a certificate of assignment of correction rights to all the speakers.
(3) When there is no speaker whose speaker reliability is greater than or equal to the threshold value θ 1 A certificate of assignment of the right to revision is assigned to all participants.
ここで修正権とは、当該音声セグメントXの内容を修正もしくは消去する権限である。また修正権譲渡証とは、修正権譲渡証を持つ全てのユーザの修正権譲渡証を受け取った時点で修正権を得ることができるものである。 Here, the correction right is the right to correct or delete the contents of the audio segment X. The correction right assignment certificate is a right to obtain a correction right when the correction right assignment certificate of all users having the correction right assignment certificate is received.
なお、(1)と判定された話者がゲストアカウントだった場合には、当該会議の参加ユーザ全てに対する修正権譲渡証を付与する。もしくは、予め議長を定めておき、そのユーザに対する修正権を付与するように定めることもできる。 If the speaker determined as (1) is a guest account, a certificate of assignment of correction rights is given to all users participating in the conference. Alternatively, it is possible to predetermine a chairperson and give a correction right to the user.
上記の処理の流れを図4に示した。音声セグメントが入力されると、当該音声がどの会議参加者の発言であるかを推定し、その信頼度を計算する。その後、上記(1)〜(3)のルールに従って、修正権もしくは修正権譲渡証を発行する。 The flow of the above processing is shown in FIG. When an audio segment is input, it is estimated which conference participant the speech is, and the reliability is calculated. Thereafter, according to the rules (1) to (3), a correction right or a correction right assignment certificate is issued.
最後にアクセス権情報登録部108が、上記の修正権・修正権譲渡証及び、会議参加者に与えられている視聴権を音声データベース109の中で保存する。またここでは、話者方向検出部103で求めた方向情報や、話者識別部106で求めた話者情報も併せて保存しておくこともできる。
Finally, the access right
これらの情報を音声データベース109に格納した例を図5に示す。ここで音声ファイルIDとは会議の録音ごとに固有に割り振られる識別子であり、音声セグメントIDとは音声セグメントごとに固有に割り振られる識別子である。また図5においては、「話者」という列において話者識別部106で得られた話者とその信頼度を保存している。また「方向」という列において、話者方向検出部103から得られた話者方向を保存している。これらの情報は後述の音声データ検索部111において利用することができる。
An example in which these pieces of information are stored in the
また上記に加えて、音声ファイルIDと会議名、参加者、録音日時、ファイルのストレージデバイス上での保管場所を示した図6のようなデータも併せて保存しておく。 In addition to the above, the audio file ID and conference name, participants, recording date and time, and data as shown in FIG. 6 showing the storage location of the file on the storage device are also stored.
次に、音声インデキシング部119では、音声セグメントXそれぞれについて、音声データ検索部111が音声データをキーワードによって検索するためのデータベースを作成する。音声データベースの検索方法は既に様々な公知技術が存在するが、ここでは大語彙連続音声認識を用いた方法について説明する。
Next, in the
まず音声インデキシング部119では、話者識別された音声セグメントXを大語彙連続音声認識器を用いて単語列へと変換する。単語列中の各単語には大語彙連続音声認識器から出力される信頼度が付与されている。なお、大語彙連続音声認識の技術については、この分野の当業者には公知であるため説明を省略する。
First, the
次に、得られた単語列から、ある単語がどの音声ファイルID/音声セグメントIDに出現するかを表現した索引データを作成する。この例を図7に示した。ここでは、ある単語に対応する{音声ファイルID/音声セグメントID/音声認識から出力される信頼度}の3つ組みを索引として作成する。例えば「製品」という単語は音声ファイルID0012、音声セグメントID0003において信頼度0.8で発話されており、また音声ファイルID0010、音声セグメントID0001において信頼度0.5で発話されているということが分かる。
Next, index data expressing in which audio file ID / audio segment ID a certain word appears is created from the obtained word string. An example of this is shown in FIG. Here, a triplet of {voice file ID / voice segment ID / reliability output from voice recognition} corresponding to a certain word is created as an index. For example, it can be seen that the word “product” is uttered with a reliability of 0.8 in the
これによりユーザは後述の音声データ検索部111においてキーワードを用いて、当該キーワードが発話された音声ファイルとそのセグメント位置を求めることが可能となる。 As a result, the user can use the keyword in the voice data search unit 111 (to be described later) to obtain the voice file in which the keyword is uttered and its segment position.
音声インデキシング部では、上記で作成した索引データを音声データベースに保存する。 The voice indexing unit stores the index data created above in a voice database.
なお、音声データベースをキーワードを用いて検索する方法として、上記のほかに大語彙連続音声認識器を用いて単語ラティスを作成する方法や、単語よりも細かいサブワードを単位としたサブワード音声認識器を用いた検索方法などが知られており、これらを代わりに利用することも可能である。またキーワードを検索する際に、複数のキーワードが入力された場合や、複合語が入力された場合の処理に関して対処することも可能である。当該技術については、この分野の当業者に公知であるため、説明を省略する。以上が、音声記録部002における処理である。 In addition to the above, as a method of searching a speech database using keywords, a method of creating a word lattice using a large vocabulary continuous speech recognizer, or a subword speech recognizer in units of subwords smaller than words is used. There are known search methods, etc., and these can be used instead. Further, when searching for a keyword, it is possible to deal with processing when a plurality of keywords are input or a compound word is input. Since this technique is known to those skilled in the art, a description thereof will be omitted. The above is the processing in the audio recording unit 002.
次に、会議の参加者が録音した音声を検索・編集し、公開する録音修正・認証部003における処理について述べる。 Next, processing in the recording correction / authentication unit 003 that searches, edits, and publishes the voice recorded by the conference participants will be described.
録音修正・認証部003は、ユーザの認証を行うユーザ認証部117と、キーワードや話者などから音声データを検索することができる音声データ検索部111と、ユーザが修正権を持つ音声データのみ修正・削除できる音声修正部112と、ユーザが公開権を持つ音声のみ公開の認証を行うことができる音声公開認証部113を持つ。さらに修正権譲渡証を持つユーザが修正権譲渡の依頼を行う修正権譲渡依頼部114と、修正権譲渡依頼の承認を行う修正権譲渡承認部115を持つ。
The recording correction / authentication unit 003 includes a
まず、ユーザは会議録音の視聴・修正・公開承認を行うために、ユーザ認証部117においてユーザ固有の情報を入力する。ユーザ認証部117では上記入力された情報とユーザ情報保持部118に保存された情報から、システムを操作しているユーザを特定する。ここではユーザにパスワードを入力させることも可能であるし、指静脈認証などのより高度な認証技術を利用することもできる。またユーザ登録部116においてユーザごとにIDカードを発行しておき、それを認証に利用することも可能である。
First, the user inputs user-specific information in the
ユーザがユーザ認証部を通してシステムにアクセスすると、図8のようなインタフェースのもと、音声の視聴、検索や、自身が参加した会議の公開承認・修正・修正権譲渡依頼・修正権譲渡承認を選択することができる。 When a user accesses the system through the user authentication unit, the user selects viewing approval / modification / revision right transfer request / revision right transfer approval for the conference in which he / she participated, based on the interface shown in FIG. can do.
ある会議において参加者同定部110で同定されたユーザには、当該会議中の音声全てに視聴権が付与されているため、その音声を視聴・検索することができる。この場合、図8の「会議を一覧から視聴」202をクリックすると、図9のように自身が視聴できる会議の一覧が表示され、内容を聞くことができる。このとき当該会議中の音声の視聴権が付与されていない会議は表示されず、視聴することができない。また会議に参加していたユーザは当該会議音声に自由に名前をつけることができる。この名前はユーザごとに個別に設定できるようにすることもできるし、会議参加者間で自動的に共有するようにすることもできる。 A user identified by the participant identification unit 110 in a certain meeting is granted viewing rights to all the voices in the meeting, and thus can view and search the voices. In this case, when “view conference from list” 202 in FIG. 8 is clicked, a list of conferences that can be viewed by itself is displayed as shown in FIG. 9, and the content can be heard. At this time, the conference to which the audio viewing right during the conference is not granted is not displayed and cannot be viewed. A user who has participated in the conference can freely name the conference audio. This name can be set individually for each user, or can be automatically shared among conference participants.
また図8の会議音声検索203では、会議名やキーワードを用いて会議の内容を検索することができる。図8のテキストボックス208へ検索したいキーワードを入力し、検索ボタン209を押下する。会議名もしくはキーワード検索の一方だけを利用したい場合には、利用したくない項目のチェックボックス210を解除すればよい。検索ボタンが押下されると音声データ検索部111が動作し、該当するファイルの一覧をユーザへ表示する。
In the
ここでは会議名とキーワードによる検索を示したが、そのほかに話者による音声の検索や話者の方向に基づく検索などを行うことも可能である。さらに会議中の画像を蓄積していた場合には、ユーザ情報保持部118に保存されている顔画像に基づく検索なども可能である。
Here, the search by the conference name and the keyword is shown, but it is also possible to perform a search by the speaker or a search based on the direction of the speaker. Further, when images during the meeting are accumulated, a search based on the face image stored in the user
会議に参加していたユーザで、当該ユーザへ修正権及び修正譲渡権が付与された発言に関して、公開してもよいと判断した場合は、音声公開承認部113において当該ユーザの発話の公開承認を行う。この際に、例えば図10のようなインタフェースを備えておき、個々の発話に対して公開承認を行うこともできるし、全ての発話を一括して公開承認できるとよい。個々の音声の公開承認を行いたい場合は、公開したい音声セグメントのみにチェックをしてから、「チェックした音声を公開承認」ボタンを押下する。全ての発話を一括して公開承認したい場合には、まず「全ての音声をチェック」にチェックすると、全ての音声セグメントがチェックされる。
If a user who has participated in the conference determines that the remark that the correction right and the right to transfer the correction have been given to the user may be disclosed, the voice
あるユーザに修正権が付与されている発話は、当該ユーザが公開承認をした時点で、会議に参加していないユーザから視聴・検索できるようになる。複数のユーザに修正権譲渡証が付与されている発話は、修正権譲渡証を保持するユーザ全てが公開承認をした時点で、会議に参加していないユーザから視聴・検索できるようになる。 An utterance in which a modification right is given to a certain user can be viewed and searched by a user who has not participated in the conference when the user approves the disclosure. An utterance in which a correction right assignment certificate is given to a plurality of users can be viewed and searched by users who have not participated in the conference when all the users holding the correction right assignment certificate have made public approval.
会議に参加していたユーザで、公開する際に編集が必要な発言があると判断したユーザは、まず図8の会議音声修正205をクリックし、音声修正部112を起動する。音声修正部112は、図8と同様の検索インタフェースを備えており、キーワードによる音声の検索や、会議名による検索を行うこともできる。
A user who has participated in the conference and has determined that there is an utterance that needs to be edited when publishing, clicks on
編集したい音声セグメントを発見した後のユーザの行動は、当該ユーザが当該音声セグメントのどのアクセス権を保持しているかによって変化する。当該音声セグメントの修正権をユーザが保持していた場合には、その音声の削除や不要部分にマスキングをほどこすなどの操作を行う。 The behavior of the user after finding the voice segment to be edited varies depending on which access right of the voice segment the user holds. If the user holds the right to correct the voice segment, an operation such as deleting the voice or masking unnecessary parts is performed.
ここで音声修正部112は、例えば図11のようなインタフェースを備えており、マウスのドラッグによって修正したい区間の開始点と終了点を指定する。また、キーワードを入力することによって当該音声中のキーワード部分のみを切り出すこともできる。テキストボックス301にキーワードを入力すると、当該キーワード区間の開始点と終了点が設定される。当該技術はワードスポッティングと呼ばれ、この分野の当業者には周知の技術であるため、ここでは詳細は述べない。
Here, the
上記で指定した区間に対して、「指定区間をマスキング」をクリックすると、指定した区間がホワイトノイズやビープ音と差し替えられる。また指定区間を消去すると、指定した区間が消去される。 Clicking “Masking specified section” for the section specified above will replace the specified section with white noise or beep sound. If the specified section is deleted, the specified section is deleted.
なお、ここで修正した結果はユーザが会議音声を視聴するときに反映されが、実際の音声データベース自体は修正されないようにすることができる。この場合、システムの管理者権限によって、音声波形をもとに戻すなどの操作を行うことも可能である。 The correction result is reflected when the user views the conference voice, but the actual voice database itself can be prevented from being corrected. In this case, it is also possible to perform an operation such as restoring the voice waveform by the system administrator authority.
以上が、当該音声セグメントの修正権をユーザが保持していた場合の処理である。ユーザが編集したい音声の修正権を持っていない場合には、そのままでは当該音声を修正することができない。この場合、ユーザは図8の修正権譲渡依頼206をクリックし、修正権譲渡依頼部114を起動する。
The above is the processing when the user holds the right to correct the audio segment. If the user does not have the right to edit the voice that he / she wants to edit, the voice cannot be corrected as it is. In this case, the user clicks the correction
修正権譲渡依頼部114は図12のようなインタフェースを持ち、当該音声セグメントの修正権譲渡依頼を、当該音声の修正権譲渡証を保持する全てのユーザへ通知する。この際に例えばメールシステムと本システムが連携し、修正権譲渡依頼の通知が出された参加者にはメールで通知されるなどしてもよい。また修正権譲渡依頼に、ユーザAのメッセージを付与しておいてもよい。
The correction right
修正権譲渡依頼の通知を受け取ったユーザは、ユーザ承認部117からシステムへアクセスした後、図8の修正権譲渡承認207をクリックし、修正権譲渡承認部115を起動する。修正権譲渡承認部115は図13のようなインタフェースを持ち、依頼ユーザ名と依頼された当該音声の聴取と依頼者からのメッセージを確認できる。また必要であれば、当該音声前後の文脈を確認できるように、指定した区間の視聴ができる図13のようなインタフェースを備えているとよい。
The user who has received the correction right assignment request notification accesses the system from the
当該音声を聴取し、当該音声の修正権を依頼ユーザに与えてもよいと判断したら、「音声の修正権譲渡 承認」ボタンをクリックすることにより、当該音声の修正権譲渡証を依頼ユーザへ発行する。 If you listen to the audio and decide that you may give the requesting user the right to correct the audio, click the “Approve Approval for Audio Correcting Rights” button to issue the audio transfer right certificate to the requesting user. To do.
修正権譲渡証を持つ全てのユーザがユーザAへ修正権譲渡証を発行した時点で、修正権譲渡承認部115がユーザAに当該音声の修正権を付与する。これによりユーザAは当該音声を修正・削除などすることができる。
When all the users having the correction right assignment certificate have issued the correction right assignment certificate to the user A, the correction right
以上が、会議音声を視聴・検索・修正・公開する枠組みである。本枠組みでは、当該音声を発話したかどうかが定かでない数名の会議参加者のみがユーザAからの修正権譲渡証発行依頼に対応すればよく、その他の大多数のユーザは、当該処理に関与しなくてすむために、全体としてユーザの手間を大幅に削減できる。また発話ごとに発言の修正権やアクセス権が管理されているため、仮に利害関係の異なるユーザどうしが話しあった後にお互いの音声を不適切に修正する心配を避けられ、より自由な論議を行うことが可能となる。 The above is a framework for viewing, searching, correcting, and publishing conference audio. In this framework, only a few conference participants who are not sure whether or not they uttered the voice need to respond to the request for issuance of the right to transfer correction from User A, and the majority of other users are involved in the process. This eliminates the need for the user and greatly reduces the user's labor as a whole. In addition, since the right to modify and access rights are managed for each utterance, it is possible to avoid concerns about improperly modifying each other's voice after users with different interests speak, and to discuss more freely. It becomes possible.
なお、上述の例では、修正権を持つユーザが当該発話の公開を承認した時点で、他のユーザが当該音声を聴取できるようになるが、これとは異なり、当該会議に参加していた全てのユーザが全ての音声の公開承認した時点で、当該音声を公開することも可能である。 In the above example, when the user with the right to modify approves the release of the utterance, other users can listen to the sound. It is also possible to publish the voice when the user has approved the release of all the voices.
上記のシステムのハードウェア構成について図14に示す。システムは、CPUとメモリからなる計算機を備え、計算機には音声入力装置、データ蓄積装置、キーボード、表示装置を備えている。図1に示した機能部101〜119は、全て計算機のメモリの中に格納されている。また、画像入力も受け付ける場合には、画像入力装置も計算機に接続する。
FIG. 14 shows the hardware configuration of the above system. The system includes a computer including a CPU and a memory, and the computer includes a voice input device, a data storage device, a keyboard, and a display device. All of the
また本システムをTV会議システムと組み合わせたときのハードウェア構成を図15に示した。ここでは音声入力装置と画像入力装置が複数の拠点に分散しており、ネットワークを介して計算機に接続されている点が図14と大きく異なる。 Further, FIG. 15 shows a hardware configuration when this system is combined with a TV conference system. Here, the voice input device and the image input device are dispersed in a plurality of bases, and are greatly different from FIG. 14 in that they are connected to a computer via a network.
001:ユーザ管理部
002:音声記録部
003:録音修正・認証部
001: User management unit 002: Voice recording unit 003: Recording correction / authentication unit
Claims (9)
入力された音声から話者を特定する話者識別部と、
前記話者識別部による話者識別の信頼度に応じて前記入力された音声の発話ごとに異なる種類の修正権を参加者に対して付与する修正権設定部と、
ユーザの認証を行うユーザ認証部と、
前記修正権設定部で修正権を付与されたユーザが当該修正権を付与された発話を修正できる音声修正部と
を有することを特徴とする会議音声録音システム。 An audio recording unit for recording audio;
A speaker identification unit for identifying a speaker from the input voice;
A correction right setting unit that gives a participant a different type of correction right for each utterance of the input voice according to the reliability of speaker identification by the speaker identification unit;
A user authentication unit for authenticating a user;
A conference voice recording system, comprising: a voice correction unit that allows a user who has been given a correction right by the correction right setting unit to correct an utterance given the correction right.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008152030A JP5030868B2 (en) | 2008-06-10 | 2008-06-10 | Conference audio recording system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008152030A JP5030868B2 (en) | 2008-06-10 | 2008-06-10 | Conference audio recording system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009301125A true JP2009301125A (en) | 2009-12-24 |
JP5030868B2 JP5030868B2 (en) | 2012-09-19 |
Family
ID=41547986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008152030A Active JP5030868B2 (en) | 2008-06-10 | 2008-06-10 | Conference audio recording system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5030868B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011165056A (en) * | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | Information processor and program |
JP2014081791A (en) * | 2012-10-16 | 2014-05-08 | Fuji Xerox Co Ltd | Information management system, information management device, information providing device, and program |
JP2017040794A (en) * | 2015-08-20 | 2017-02-23 | 本田技研工業株式会社 | Acoustic processing device and acoustic processing method |
CN108877793A (en) * | 2018-05-30 | 2018-11-23 | Oppo广东移动通信有限公司 | Application control method, apparatus, storage medium and electronic equipment |
JP2020507437A (en) * | 2017-02-12 | 2020-03-12 | カーディオコル リミテッドCardioKol Ltd. | Regular verbal screening for heart disease |
JP2020119416A (en) * | 2019-01-28 | 2020-08-06 | 悦 溝端 | Local information display system |
CN113132922A (en) * | 2020-01-15 | 2021-07-16 | 成都鼎桥通信技术有限公司 | Method and device for playing group call prompt tone |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101818980B1 (en) * | 2016-12-12 | 2018-01-16 | 주식회사 소리자바 | Multi-speaker speech recognition correction system |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352995A (en) * | 1999-06-14 | 2000-12-19 | Canon Inc | Conference voice processing method, recording device, and information storage medium |
JP2001272990A (en) * | 2000-03-28 | 2001-10-05 | Fuji Xerox Co Ltd | Interaction recording and editing device |
JP2004234627A (en) * | 2003-01-10 | 2004-08-19 | Fuji Photo Film Co Ltd | Information-holding device |
JP2004287201A (en) * | 2003-03-24 | 2004-10-14 | Seiko Epson Corp | Device and method for preparing conference minutes, and computer program |
JP2007233075A (en) * | 2006-03-01 | 2007-09-13 | Murata Mach Ltd | Minutes preparation device |
JP2007256498A (en) * | 2006-03-22 | 2007-10-04 | Yamaha Corp | Voice situation data producing device, voice situation visualizing device, voice situation data editing apparatus, voice data reproducing device, and voice communication system |
JP2007329794A (en) * | 2006-06-09 | 2007-12-20 | Yamaha Corp | Voice recording device |
-
2008
- 2008-06-10 JP JP2008152030A patent/JP5030868B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352995A (en) * | 1999-06-14 | 2000-12-19 | Canon Inc | Conference voice processing method, recording device, and information storage medium |
JP2001272990A (en) * | 2000-03-28 | 2001-10-05 | Fuji Xerox Co Ltd | Interaction recording and editing device |
JP2004234627A (en) * | 2003-01-10 | 2004-08-19 | Fuji Photo Film Co Ltd | Information-holding device |
JP2004287201A (en) * | 2003-03-24 | 2004-10-14 | Seiko Epson Corp | Device and method for preparing conference minutes, and computer program |
JP2007233075A (en) * | 2006-03-01 | 2007-09-13 | Murata Mach Ltd | Minutes preparation device |
JP2007256498A (en) * | 2006-03-22 | 2007-10-04 | Yamaha Corp | Voice situation data producing device, voice situation visualizing device, voice situation data editing apparatus, voice data reproducing device, and voice communication system |
JP2007329794A (en) * | 2006-06-09 | 2007-12-20 | Yamaha Corp | Voice recording device |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011165056A (en) * | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | Information processor and program |
JP2014081791A (en) * | 2012-10-16 | 2014-05-08 | Fuji Xerox Co Ltd | Information management system, information management device, information providing device, and program |
JP2017040794A (en) * | 2015-08-20 | 2017-02-23 | 本田技研工業株式会社 | Acoustic processing device and acoustic processing method |
JP2020507437A (en) * | 2017-02-12 | 2020-03-12 | カーディオコル リミテッドCardioKol Ltd. | Regular verbal screening for heart disease |
US11398243B2 (en) | 2017-02-12 | 2022-07-26 | Cardiokol Ltd. | Verbal periodic screening for heart disease |
JP7353592B2 (en) | 2017-02-12 | 2023-10-02 | カーディオコル リミテッド | Regular verbal screening for heart disease |
CN108877793A (en) * | 2018-05-30 | 2018-11-23 | Oppo广东移动通信有限公司 | Application control method, apparatus, storage medium and electronic equipment |
JP2020119416A (en) * | 2019-01-28 | 2020-08-06 | 悦 溝端 | Local information display system |
CN113132922A (en) * | 2020-01-15 | 2021-07-16 | 成都鼎桥通信技术有限公司 | Method and device for playing group call prompt tone |
CN113132922B (en) * | 2020-01-15 | 2022-09-09 | 成都鼎桥通信技术有限公司 | Method and device for playing group call prompt tone |
Also Published As
Publication number | Publication date |
---|---|
JP5030868B2 (en) | 2012-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5030868B2 (en) | Conference audio recording system | |
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
US11417343B2 (en) | Automatic speaker identification in calls using multiple speaker-identification parameters | |
US20180197548A1 (en) | System and method for diarization of speech, automated generation of transcripts, and automatic information extraction | |
TWI536365B (en) | Voice print identification | |
US9626970B2 (en) | Speaker identification using spatial information | |
US8791977B2 (en) | Method and system for presenting metadata during a videoconference | |
CN112075075A (en) | Computerized intelligent assistant for meetings | |
CN107211062A (en) | Audio playback scheduling in virtual acoustic room | |
US20170287482A1 (en) | Identifying speakers in transcription of multiple party conversations | |
WO2016163028A1 (en) | Utterance presentation device, utterance presentation method, and program | |
JP2005341015A (en) | Video conference system with minute creation support function | |
JP2010060850A (en) | Minute preparation support device, minute preparation support method, program for supporting minute preparation and minute preparation support system | |
US11783829B2 (en) | Detecting and assigning action items to conversation participants in real-time and detecting completion thereof | |
US11810585B2 (en) | Systems and methods for filtering unwanted sounds from a conference call using voice synthesis | |
US20220231873A1 (en) | System for facilitating comprehensive multilingual virtual or real-time meeting with real-time translation | |
JP2010109898A (en) | Photographing control apparatus, photographing control method and program | |
US20240029753A1 (en) | Systems and methods for filtering unwanted sounds from a conference call | |
CN111223487B (en) | Information processing method and electronic equipment | |
US11640426B1 (en) | Background audio identification for query disambiguation | |
KR20170074015A (en) | Method for editing video conference image and apparatus for executing the method | |
JP2014178621A (en) | Information providing device and program | |
JP7163968B2 (en) | SERVER DEVICE, CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD AND PROGRAM | |
US20230066829A1 (en) | Server device, conference assistance system, and conference assistance method | |
JP2022136589A (en) | Utterance control program, utterance control method and utterance control device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120529 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120626 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5030868 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |